docs: PDF 문서 이해 기능 구체화
- Phase 3에 PDF 직접 전달 기능 상세 추가 (Part.from_bytes, Files API) - 최대 1,000페이지, 50MB 지원 명시 - 다이어그램/차트/표 분석 기능 추가 - 문서 이해 가이드 링크 추가
This commit is contained in:
parent
f849308436
commit
9674adfd6f
@ -57,12 +57,17 @@
|
||||
|
||||
**개선 내용**:
|
||||
- `inline_data` 또는 `file_data`로 이미지/동영상/오디오 처리
|
||||
- IR Deck PDF 이미지 직접 분석
|
||||
- **PDF 문서 이해**: `Part.from_bytes()` 또는 Files API로 PDF 직접 전달 (최대 1,000페이지, 50MB)
|
||||
- 텍스트, 이미지, 다이어그램, 차트, 표 분석 및 해석
|
||||
- 구조화된 출력 추출, 요약, 질문 답변
|
||||
- 레이아웃/서식 유지 트랜스크립션 (HTML 등)
|
||||
- IR Deck PDF 직접 분석 (현재는 OCR/파싱 경로 사용)
|
||||
- Slack 이미지 첨부 분석
|
||||
- 동영상/오디오 트랜스크립트 생성
|
||||
|
||||
**UX 개선 예상 효과**:
|
||||
- **IR Deck 분석**: PDF 이미지 직접 분석으로 OCR 오류 감소, 정확도 향상
|
||||
- **IR Deck 분석**: PDF 직접 전달로 OCR 오류 감소, 정확도 향상, 다이어그램/차트 해석 가능
|
||||
- **문서 처리 효율**: 최대 1,000페이지 PDF 단일 요청으로 처리, Files API로 재사용 시 지연 시간 개선
|
||||
- **슬랙 이미지 분석**: 사용자가 업로드한 차트/그래프 즉시 분석 가능
|
||||
- **동영상 요약**: 회의록/프레젠테이션 동영상 자동 요약
|
||||
- **접근성 향상**: 시각적 정보를 텍스트로 변환하여 시각 장애인 접근성 개선
|
||||
@ -116,8 +121,11 @@
|
||||
- 프론트엔드: 스트리밍 응답 처리 (chat-interface.tsx)
|
||||
|
||||
### Phase 3: 멀티모달 기본 지원
|
||||
- PDF 문서 이해: `Part.from_bytes()` 또는 Files API로 PDF 직접 전달
|
||||
- IR Deck 분석: 현재 OCR/파싱 경로 대신 PDF 직접 전달로 전환
|
||||
- 최대 1,000페이지, 50MB 지원
|
||||
- 다이어그램, 차트, 표 분석 및 해석
|
||||
- 이미지 처리: `inline_data`로 이미지 전송
|
||||
- IR Deck 분석: PDF 이미지 직접 분석 경로 추가
|
||||
- Slack 이미지: 첨부 이미지 분석 기능
|
||||
|
||||
### Phase 4: 사고 기능 활용
|
||||
@ -134,6 +142,7 @@
|
||||
|
||||
- Gemini API 참조: https://ai.google.dev/api
|
||||
- Gemini 생각 가이드: https://ai.google.dev/docs/thinking
|
||||
- Gemini 문서 이해 가이드: https://ai.google.dev/docs/document-understanding
|
||||
- Google Gen AI SDK 문서: https://googleapis.github.io/python-genai/
|
||||
- 현재 구현: `rb8001/app/services/llm/gemini_handler.py:200` (구버전 SDK, thinking_config 미지원)
|
||||
- 신버전 SDK 예시: `rb8001/app/services/gemini_file_search_client.py:81`
|
||||
|
||||
Loading…
x
Reference in New Issue
Block a user