docs(research): Gemini File Search IR 평가 품질 개선 효과 추가

- 5.4절 추가: IR 평가 품질 개선 효과 분석
- 현재 문제: PDF 추출 실패 시 evidence_count=0으로 신뢰도 0.6 고정
- 개선 효과: 한글 OCR 안정 처리로 신뢰도 0.7~0.8 상승
- 실무 제약: 48시간 제한으로 하이브리드 병행 운영 권장
- 참고 코드: startup_valuation.py, text_extractor.py, upload.py
This commit is contained in:
Claude-51124 2025-11-10 13:32:52 +09:00
parent 09fb23db20
commit a9d14e1ffb

View File

@ -163,6 +163,26 @@ Google Gemini File Search API는 파일을 자동으로 청크·색인·임베
- 내부 문서 업로드 보안 리스크
- 감사 로그 제한적
### 5.4 IR 평가 품질 개선 효과 분석
참고: rb8001/app/services/startup_valuation.py:38-72, 296-314
**현재 문제**:
- PDF 추출 실패 시 IR 지표가 비어서 (evidence_count=0) 기본 seed 단계 30억원·신뢰도 0.6으로 고정
- 증거 개수에 비례한 신뢰도 상승 (+0.05/건)과 유사기업 보정 (최대 +0.35)을 받지 못해 평가 품질 낮음
- skill-rag-file/app/api/upload.py:148-183의 PyPDF2 → OCR fallback 과정에서 한글 품질 문제 발생
**Gemini File Search 효과**:
- 한글 OCR PDF를 13.77초에 안정적으로 청크·색인하여 IR 지표 (매출·성장률·팀규모·기술우위) 정확 추출
- seed 탈출하고 증거 2개 이상 시 신뢰도가 0.7~0.8로 상승
- grounding_metadata로 근거 제공하여 설명가능성 개선
**실무 운영 제약**:
- 48시간 삭제 제약으로 전면 교체 불가
- "신속 PoC·임시 분석"은 File Search 활용
- "영구 보관·재조회"는 Chroma/pgvector 유지
- 하이브리드 병행 운영 권장
---
## 6. 결론 및 권장사항