docs: PDF 문서 이해 기능 구체화

- Phase 3에 PDF 직접 전달 기능 상세 추가 (Part.from_bytes, Files API)
- 최대 1,000페이지, 50MB 지원 명시
- 다이어그램/차트/표 분석 기능 추가
- 문서 이해 가이드 링크 추가
This commit is contained in:
Claude-51124 2025-12-24 15:52:27 +09:00
parent f849308436
commit 9674adfd6f

View File

@ -57,12 +57,17 @@
**개선 내용**:
- `inline_data` 또는 `file_data`로 이미지/동영상/오디오 처리
- IR Deck PDF 이미지 직접 분석
- **PDF 문서 이해**: `Part.from_bytes()` 또는 Files API로 PDF 직접 전달 (최대 1,000페이지, 50MB)
- 텍스트, 이미지, 다이어그램, 차트, 표 분석 및 해석
- 구조화된 출력 추출, 요약, 질문 답변
- 레이아웃/서식 유지 트랜스크립션 (HTML 등)
- IR Deck PDF 직접 분석 (현재는 OCR/파싱 경로 사용)
- Slack 이미지 첨부 분석
- 동영상/오디오 트랜스크립트 생성
**UX 개선 예상 효과**:
- **IR Deck 분석**: PDF 이미지 직접 분석으로 OCR 오류 감소, 정확도 향상
- **IR Deck 분석**: PDF 직접 전달로 OCR 오류 감소, 정확도 향상, 다이어그램/차트 해석 가능
- **문서 처리 효율**: 최대 1,000페이지 PDF 단일 요청으로 처리, Files API로 재사용 시 지연 시간 개선
- **슬랙 이미지 분석**: 사용자가 업로드한 차트/그래프 즉시 분석 가능
- **동영상 요약**: 회의록/프레젠테이션 동영상 자동 요약
- **접근성 향상**: 시각적 정보를 텍스트로 변환하여 시각 장애인 접근성 개선
@ -116,8 +121,11 @@
- 프론트엔드: 스트리밍 응답 처리 (chat-interface.tsx)
### Phase 3: 멀티모달 기본 지원
- PDF 문서 이해: `Part.from_bytes()` 또는 Files API로 PDF 직접 전달
- IR Deck 분석: 현재 OCR/파싱 경로 대신 PDF 직접 전달로 전환
- 최대 1,000페이지, 50MB 지원
- 다이어그램, 차트, 표 분석 및 해석
- 이미지 처리: `inline_data`로 이미지 전송
- IR Deck 분석: PDF 이미지 직접 분석 경로 추가
- Slack 이미지: 첨부 이미지 분석 기능
### Phase 4: 사고 기능 활용
@ -134,6 +142,7 @@
- Gemini API 참조: https://ai.google.dev/api
- Gemini 생각 가이드: https://ai.google.dev/docs/thinking
- Gemini 문서 이해 가이드: https://ai.google.dev/docs/document-understanding
- Google Gen AI SDK 문서: https://googleapis.github.io/python-genai/
- 현재 구현: `rb8001/app/services/llm/gemini_handler.py:200` (구버전 SDK, thinking_config 미지원)
- 신버전 SDK 예시: `rb8001/app/services/gemini_file_search_client.py:81`