diff --git a/journey/plans/251224_gemini_api_streaming_multimodal_improvement.md b/journey/plans/251224_gemini_api_streaming_multimodal_improvement.md index fae3230..3dae0f6 100644 --- a/journey/plans/251224_gemini_api_streaming_multimodal_improvement.md +++ b/journey/plans/251224_gemini_api_streaming_multimodal_improvement.md @@ -57,12 +57,17 @@ **개선 내용**: - `inline_data` 또는 `file_data`로 이미지/동영상/오디오 처리 -- IR Deck PDF 이미지 직접 분석 +- **PDF 문서 이해**: `Part.from_bytes()` 또는 Files API로 PDF 직접 전달 (최대 1,000페이지, 50MB) + - 텍스트, 이미지, 다이어그램, 차트, 표 분석 및 해석 + - 구조화된 출력 추출, 요약, 질문 답변 + - 레이아웃/서식 유지 트랜스크립션 (HTML 등) +- IR Deck PDF 직접 분석 (현재는 OCR/파싱 경로 사용) - Slack 이미지 첨부 분석 - 동영상/오디오 트랜스크립트 생성 **UX 개선 예상 효과**: -- **IR Deck 분석**: PDF 이미지 직접 분석으로 OCR 오류 감소, 정확도 향상 +- **IR Deck 분석**: PDF 직접 전달로 OCR 오류 감소, 정확도 향상, 다이어그램/차트 해석 가능 +- **문서 처리 효율**: 최대 1,000페이지 PDF 단일 요청으로 처리, Files API로 재사용 시 지연 시간 개선 - **슬랙 이미지 분석**: 사용자가 업로드한 차트/그래프 즉시 분석 가능 - **동영상 요약**: 회의록/프레젠테이션 동영상 자동 요약 - **접근성 향상**: 시각적 정보를 텍스트로 변환하여 시각 장애인 접근성 개선 @@ -116,8 +121,11 @@ - 프론트엔드: 스트리밍 응답 처리 (chat-interface.tsx) ### Phase 3: 멀티모달 기본 지원 +- PDF 문서 이해: `Part.from_bytes()` 또는 Files API로 PDF 직접 전달 + - IR Deck 분석: 현재 OCR/파싱 경로 대신 PDF 직접 전달로 전환 + - 최대 1,000페이지, 50MB 지원 + - 다이어그램, 차트, 표 분석 및 해석 - 이미지 처리: `inline_data`로 이미지 전송 -- IR Deck 분석: PDF 이미지 직접 분석 경로 추가 - Slack 이미지: 첨부 이미지 분석 기능 ### Phase 4: 사고 기능 활용 @@ -134,6 +142,7 @@ - Gemini API 참조: https://ai.google.dev/api - Gemini 생각 가이드: https://ai.google.dev/docs/thinking +- Gemini 문서 이해 가이드: https://ai.google.dev/docs/document-understanding - Google Gen AI SDK 문서: https://googleapis.github.io/python-genai/ - 현재 구현: `rb8001/app/services/llm/gemini_handler.py:200` (구버전 SDK, thinking_config 미지원) - 신버전 SDK 예시: `rb8001/app/services/gemini_file_search_client.py:81`