docs: OCR 모델 벤치마크 리서치 추가, skill-rag-file에 OCR 모델(gemini-2.0-flash) 기록
Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>
This commit is contained in:
parent
4f2b392918
commit
67e33826c2
41
journey/research/rag/260320_OCR_모델_벤치마크_리서치.md
Normal file
41
journey/research/rag/260320_OCR_모델_벤치마크_리서치.md
Normal file
@ -0,0 +1,41 @@
|
||||
---
|
||||
tags: [research, rag, ocr, benchmark]
|
||||
---
|
||||
|
||||
# OCR 모델 벤치마크 리서치
|
||||
|
||||
**작성일**: 2026-03-20
|
||||
**목적**: IR덱 등 이미지 기반 PDF의 텍스트 추출에 적합한 OCR 모델 선정
|
||||
|
||||
## 결론
|
||||
|
||||
**Gemini 2.0 Flash** — 속도+품질 최적. OCR 기본 모델로 채택.
|
||||
|
||||
## 벤치마크 조건
|
||||
|
||||
- 대상: TEENDEV IR.pdf (3.5MB, 19페이지, 이미지 기반 PDF)
|
||||
- 테스트 페이지: 1, 5, 10 (페이지당 ~1.3MB PNG @300dpi)
|
||||
- 환경: 24서버 (GPU 없음)
|
||||
|
||||
## 결과
|
||||
|
||||
| 모델 | 평균시간/페이지 | 초/MB | 평균글자 | 품질 |
|
||||
|------|----------------|-------|---------|------|
|
||||
| **Gemini 2.0 Flash** | **3.4초** | **2.3** | 198 | ✅ 한글+영어 정상 |
|
||||
| gpt-4o | 3.9초 | 3.3 | 63 | ❌ 일부 페이지 거부 |
|
||||
| gpt-4o-mini | 4.8초 | 4.3 | 214 | ✅ 정상 |
|
||||
| gpt-4.1-mini | 5.1초 | 5.0 | 201 | ✅ 정상 |
|
||||
| Gemini 2.5 Flash | 6.0초 | 5.0 | 205 | ✅ 정상 |
|
||||
| Gemini 2.5 Pro | 15.2초 | 15.7 | 198 | ✅ 정상 (느림) |
|
||||
| PaddleOCR 3.4 | - | - | - | GPU 필요 (서버 불가) |
|
||||
|
||||
## 선정 근거
|
||||
|
||||
- Gemini 2.0 Flash가 가장 빠르면서 품질 동일
|
||||
- gpt-4o는 안전 정책으로 OCR 거부 발생 → 신뢰성 부족
|
||||
- 2.5 Pro/Flash는 품질 동일하나 2~5배 느림
|
||||
- PaddleOCR는 OmniDocBench 1위(92.86)이나 GPU 필수
|
||||
|
||||
## 관련 문서
|
||||
|
||||
- [OCR 선별적용 정책 리서치](./260320_OCR_선별적용_정책_리서치.md)
|
||||
@ -30,6 +30,13 @@ RAG(Retrieval-Augmented Generation) 파일 처리 스킬. 포트 8508.
|
||||
- `POST /search` - RAG 검색
|
||||
- `GET /healthz` - 헬스체크
|
||||
|
||||
## OCR
|
||||
|
||||
- 모델: `OCR_MODEL=gemini-2.0-flash` (runtime.env SSOT)
|
||||
- 용도: 이미지 기반 PDF 텍스트 추출 (text_length 부족 시 선별 적용)
|
||||
- 벤치마크: 3.4초/페이지, 2.3초/MB — 속도+품질 최적 ([리서치](../../journey/research/rag/260320_OCR_모델_벤치마크_리서치.md))
|
||||
|
||||
## 환경변수
|
||||
|
||||
- `DATABASE_URL`, `CHROMA_HOST`, `EMBEDDING_SERVICE_URL`, `DOCUMENT_BASE_PATH`
|
||||
- `OCR_MODEL` — OCR 모델 (기본: gemini-2.0-flash)
|
||||
|
||||
Loading…
x
Reference in New Issue
Block a user