From 9674adfd6fd089d3e061135c77a6178de4660efe Mon Sep 17 00:00:00 2001 From: Claude-51124 Date: Wed, 24 Dec 2025 15:52:27 +0900 Subject: [PATCH] =?UTF-8?q?docs:=20PDF=20=EB=AC=B8=EC=84=9C=20=EC=9D=B4?= =?UTF-8?q?=ED=95=B4=20=EA=B8=B0=EB=8A=A5=20=EA=B5=AC=EC=B2=B4=ED=99=94?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit - Phase 3에 PDF 직접 전달 기능 상세 추가 (Part.from_bytes, Files API) - 최대 1,000페이지, 50MB 지원 명시 - 다이어그램/차트/표 분석 기능 추가 - 문서 이해 가이드 링크 추가 --- ...gemini_api_streaming_multimodal_improvement.md | 15 ++++++++++++--- 1 file changed, 12 insertions(+), 3 deletions(-) diff --git a/journey/plans/251224_gemini_api_streaming_multimodal_improvement.md b/journey/plans/251224_gemini_api_streaming_multimodal_improvement.md index fae3230..3dae0f6 100644 --- a/journey/plans/251224_gemini_api_streaming_multimodal_improvement.md +++ b/journey/plans/251224_gemini_api_streaming_multimodal_improvement.md @@ -57,12 +57,17 @@ **개선 내용**: - `inline_data` 또는 `file_data`로 이미지/동영상/오디오 처리 -- IR Deck PDF 이미지 직접 분석 +- **PDF 문서 이해**: `Part.from_bytes()` 또는 Files API로 PDF 직접 전달 (최대 1,000페이지, 50MB) + - 텍스트, 이미지, 다이어그램, 차트, 표 분석 및 해석 + - 구조화된 출력 추출, 요약, 질문 답변 + - 레이아웃/서식 유지 트랜스크립션 (HTML 등) +- IR Deck PDF 직접 분석 (현재는 OCR/파싱 경로 사용) - Slack 이미지 첨부 분석 - 동영상/오디오 트랜스크립트 생성 **UX 개선 예상 효과**: -- **IR Deck 분석**: PDF 이미지 직접 분석으로 OCR 오류 감소, 정확도 향상 +- **IR Deck 분석**: PDF 직접 전달로 OCR 오류 감소, 정확도 향상, 다이어그램/차트 해석 가능 +- **문서 처리 효율**: 최대 1,000페이지 PDF 단일 요청으로 처리, Files API로 재사용 시 지연 시간 개선 - **슬랙 이미지 분석**: 사용자가 업로드한 차트/그래프 즉시 분석 가능 - **동영상 요약**: 회의록/프레젠테이션 동영상 자동 요약 - **접근성 향상**: 시각적 정보를 텍스트로 변환하여 시각 장애인 접근성 개선 @@ -116,8 +121,11 @@ - 프론트엔드: 스트리밍 응답 처리 (chat-interface.tsx) ### Phase 3: 멀티모달 기본 지원 +- PDF 문서 이해: `Part.from_bytes()` 또는 Files API로 PDF 직접 전달 + - IR Deck 분석: 현재 OCR/파싱 경로 대신 PDF 직접 전달로 전환 + - 최대 1,000페이지, 50MB 지원 + - 다이어그램, 차트, 표 분석 및 해석 - 이미지 처리: `inline_data`로 이미지 전송 -- IR Deck 분석: PDF 이미지 직접 분석 경로 추가 - Slack 이미지: 첨부 이미지 분석 기능 ### Phase 4: 사고 기능 활용 @@ -134,6 +142,7 @@ - Gemini API 참조: https://ai.google.dev/api - Gemini 생각 가이드: https://ai.google.dev/docs/thinking +- Gemini 문서 이해 가이드: https://ai.google.dev/docs/document-understanding - Google Gen AI SDK 문서: https://googleapis.github.io/python-genai/ - 현재 구현: `rb8001/app/services/llm/gemini_handler.py:200` (구버전 SDK, thinking_config 미지원) - 신버전 SDK 예시: `rb8001/app/services/gemini_file_search_client.py:81`