From a9d14e1ffb965069d5362d63fe70c892d2ba154b Mon Sep 17 00:00:00 2001 From: Claude-51124 Date: Mon, 10 Nov 2025 13:32:52 +0900 Subject: [PATCH] =?UTF-8?q?docs(research):=20Gemini=20File=20Search=20IR?= =?UTF-8?q?=20=ED=8F=89=EA=B0=80=20=ED=92=88=EC=A7=88=20=EA=B0=9C=EC=84=A0?= =?UTF-8?q?=20=ED=9A=A8=EA=B3=BC=20=EC=B6=94=EA=B0=80?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit - 5.4절 추가: IR 평가 품질 개선 효과 분석 - 현재 문제: PDF 추출 실패 시 evidence_count=0으로 신뢰도 0.6 고정 - 개선 효과: 한글 OCR 안정 처리로 신뢰도 0.7~0.8 상승 - 실무 제약: 48시간 제한으로 하이브리드 병행 운영 권장 - 참고 코드: startup_valuation.py, text_extractor.py, upload.py --- ..._및_콜드메일_개선방안_평가.md | 20 +++++++++++++++++++ 1 file changed, 20 insertions(+) diff --git a/research/rag/251110_gemini_file_search_api_테스트_및_콜드메일_개선방안_평가.md b/research/rag/251110_gemini_file_search_api_테스트_및_콜드메일_개선방안_평가.md index 3e1034d..98e3767 100644 --- a/research/rag/251110_gemini_file_search_api_테스트_및_콜드메일_개선방안_평가.md +++ b/research/rag/251110_gemini_file_search_api_테스트_및_콜드메일_개선방안_평가.md @@ -163,6 +163,26 @@ Google Gemini File Search API는 파일을 자동으로 청크·색인·임베 - 내부 문서 업로드 보안 리스크 - 감사 로그 제한적 +### 5.4 IR 평가 품질 개선 효과 분석 + +참고: rb8001/app/services/startup_valuation.py:38-72, 296-314 + +**현재 문제**: +- PDF 추출 실패 시 IR 지표가 비어서 (evidence_count=0) 기본 seed 단계 30억원·신뢰도 0.6으로 고정 +- 증거 개수에 비례한 신뢰도 상승 (+0.05/건)과 유사기업 보정 (최대 +0.35)을 받지 못해 평가 품질 낮음 +- skill-rag-file/app/api/upload.py:148-183의 PyPDF2 → OCR fallback 과정에서 한글 품질 문제 발생 + +**Gemini File Search 효과**: +- 한글 OCR PDF를 13.77초에 안정적으로 청크·색인하여 IR 지표 (매출·성장률·팀규모·기술우위) 정확 추출 +- seed 탈출하고 증거 2개 이상 시 신뢰도가 0.7~0.8로 상승 +- grounding_metadata로 근거 제공하여 설명가능성 개선 + +**실무 운영 제약**: +- 48시간 삭제 제약으로 전면 교체 불가 +- "신속 PoC·임시 분석"은 File Search 활용 +- "영구 보관·재조회"는 Chroma/pgvector 유지 +- 하이브리드 병행 운영 권장 + --- ## 6. 결론 및 권장사항