diff --git a/research/rag/251110_gemini_file_search_api_테스트_및_콜드메일_개선방안_평가.md b/research/rag/251110_gemini_file_search_api_테스트_및_콜드메일_개선방안_평가.md index 3e1034d..98e3767 100644 --- a/research/rag/251110_gemini_file_search_api_테스트_및_콜드메일_개선방안_평가.md +++ b/research/rag/251110_gemini_file_search_api_테스트_및_콜드메일_개선방안_평가.md @@ -163,6 +163,26 @@ Google Gemini File Search API는 파일을 자동으로 청크·색인·임베 - 내부 문서 업로드 보안 리스크 - 감사 로그 제한적 +### 5.4 IR 평가 품질 개선 효과 분석 + +참고: rb8001/app/services/startup_valuation.py:38-72, 296-314 + +**현재 문제**: +- PDF 추출 실패 시 IR 지표가 비어서 (evidence_count=0) 기본 seed 단계 30억원·신뢰도 0.6으로 고정 +- 증거 개수에 비례한 신뢰도 상승 (+0.05/건)과 유사기업 보정 (최대 +0.35)을 받지 못해 평가 품질 낮음 +- skill-rag-file/app/api/upload.py:148-183의 PyPDF2 → OCR fallback 과정에서 한글 품질 문제 발생 + +**Gemini File Search 효과**: +- 한글 OCR PDF를 13.77초에 안정적으로 청크·색인하여 IR 지표 (매출·성장률·팀규모·기술우위) 정확 추출 +- seed 탈출하고 증거 2개 이상 시 신뢰도가 0.7~0.8로 상승 +- grounding_metadata로 근거 제공하여 설명가능성 개선 + +**실무 운영 제약**: +- 48시간 삭제 제약으로 전면 교체 불가 +- "신속 PoC·임시 분석"은 File Search 활용 +- "영구 보관·재조회"는 Chroma/pgvector 유지 +- 하이브리드 병행 운영 권장 + --- ## 6. 결론 및 권장사항