docs(research): Gemini File Search IR 평가 품질 개선 효과 추가
- 5.4절 추가: IR 평가 품질 개선 효과 분석 - 현재 문제: PDF 추출 실패 시 evidence_count=0으로 신뢰도 0.6 고정 - 개선 효과: 한글 OCR 안정 처리로 신뢰도 0.7~0.8 상승 - 실무 제약: 48시간 제한으로 하이브리드 병행 운영 권장 - 참고 코드: startup_valuation.py, text_extractor.py, upload.py
This commit is contained in:
parent
09fb23db20
commit
a9d14e1ffb
@ -163,6 +163,26 @@ Google Gemini File Search API는 파일을 자동으로 청크·색인·임베
|
|||||||
- 내부 문서 업로드 보안 리스크
|
- 내부 문서 업로드 보안 리스크
|
||||||
- 감사 로그 제한적
|
- 감사 로그 제한적
|
||||||
|
|
||||||
|
### 5.4 IR 평가 품질 개선 효과 분석
|
||||||
|
|
||||||
|
참고: rb8001/app/services/startup_valuation.py:38-72, 296-314
|
||||||
|
|
||||||
|
**현재 문제**:
|
||||||
|
- PDF 추출 실패 시 IR 지표가 비어서 (evidence_count=0) 기본 seed 단계 30억원·신뢰도 0.6으로 고정
|
||||||
|
- 증거 개수에 비례한 신뢰도 상승 (+0.05/건)과 유사기업 보정 (최대 +0.35)을 받지 못해 평가 품질 낮음
|
||||||
|
- skill-rag-file/app/api/upload.py:148-183의 PyPDF2 → OCR fallback 과정에서 한글 품질 문제 발생
|
||||||
|
|
||||||
|
**Gemini File Search 효과**:
|
||||||
|
- 한글 OCR PDF를 13.77초에 안정적으로 청크·색인하여 IR 지표 (매출·성장률·팀규모·기술우위) 정확 추출
|
||||||
|
- seed 탈출하고 증거 2개 이상 시 신뢰도가 0.7~0.8로 상승
|
||||||
|
- grounding_metadata로 근거 제공하여 설명가능성 개선
|
||||||
|
|
||||||
|
**실무 운영 제약**:
|
||||||
|
- 48시간 삭제 제약으로 전면 교체 불가
|
||||||
|
- "신속 PoC·임시 분석"은 File Search 활용
|
||||||
|
- "영구 보관·재조회"는 Chroma/pgvector 유지
|
||||||
|
- 하이브리드 병행 운영 권장
|
||||||
|
|
||||||
---
|
---
|
||||||
|
|
||||||
## 6. 결론 및 권장사항
|
## 6. 결론 및 권장사항
|
||||||
|
|||||||
Loading…
x
Reference in New Issue
Block a user