docs: PDF 문서 이해 기능 구체화

- Phase 3에 PDF 직접 전달 기능 상세 추가 (Part.from_bytes, Files API) - 최대 1,000페이지, 50MB 지원 명시 - 다이어그램/차트/표 분석 기능 추가 - 문서 이해 가이드 링크 추가
2025-12-24 15:52:27 +09:00 · 2025-12-24 15:52:27 +09:00 · 9674adfd6f
commit 9674adfd6f
parent f849308436
1 changed files with 12 additions and 3 deletions
--- a/journey/plans/251224_gemini_api_streaming_multimodal_improvement.md
+++ b/journey/plans/251224_gemini_api_streaming_multimodal_improvement.md
@ -57,12 +57,17 @@

 **개선 내용**:
 - `inline_data` 또는 `file_data`로 이미지/동영상/오디오 처리
- IR Deck PDF 이미지 직접 분석
+- **PDF 문서 이해**: `Part.from_bytes()` 또는 Files API로 PDF 직접 전달 (최대 1,000페이지, 50MB)
+  - 텍스트, 이미지, 다이어그램, 차트, 표 분석 및 해석
+  - 구조화된 출력 추출, 요약, 질문 답변
+  - 레이아웃/서식 유지 트랜스크립션 (HTML 등)
+- IR Deck PDF 직접 분석 (현재는 OCR/파싱 경로 사용)
 - Slack 이미지 첨부 분석
 - 동영상/오디오 트랜스크립트 생성

 **UX 개선 예상 효과**:
- **IR Deck 분석**: PDF 이미지 직접 분석으로 OCR 오류 감소, 정확도 향상
+- **IR Deck 분석**: PDF 직접 전달로 OCR 오류 감소, 정확도 향상, 다이어그램/차트 해석 가능
+- **문서 처리 효율**: 최대 1,000페이지 PDF 단일 요청으로 처리, Files API로 재사용 시 지연 시간 개선
 - **슬랙 이미지 분석**: 사용자가 업로드한 차트/그래프 즉시 분석 가능
 - **동영상 요약**: 회의록/프레젠테이션 동영상 자동 요약
 - **접근성 향상**: 시각적 정보를 텍스트로 변환하여 시각 장애인 접근성 개선
@ -116,8 +121,11 @@
 - 프론트엔드: 스트리밍 응답 처리 (chat-interface.tsx)

 ### Phase 3: 멀티모달 기본 지원
+- PDF 문서 이해: `Part.from_bytes()` 또는 Files API로 PDF 직접 전달
+  - IR Deck 분석: 현재 OCR/파싱 경로 대신 PDF 직접 전달로 전환
+  - 최대 1,000페이지, 50MB 지원
+  - 다이어그램, 차트, 표 분석 및 해석
 - 이미지 처리: `inline_data`로 이미지 전송
- IR Deck 분석: PDF 이미지 직접 분석 경로 추가
 - Slack 이미지: 첨부 이미지 분석 기능

 ### Phase 4: 사고 기능 활용
@ -134,6 +142,7 @@

 - Gemini API 참조: https://ai.google.dev/api
 - Gemini 생각 가이드: https://ai.google.dev/docs/thinking
+- Gemini 문서 이해 가이드: https://ai.google.dev/docs/document-understanding
 - Google Gen AI SDK 문서: https://googleapis.github.io/python-genai/
 - 현재 구현: `rb8001/app/services/llm/gemini_handler.py:200` (구버전 SDK, thinking_config 미지원)
 - 신버전 SDK 예시: `rb8001/app/services/gemini_file_search_client.py:81`