DOCS/journey/research/rag/260320_OCR_모델_벤치마크_리서치.md
2026-03-21 10:44:57 +09:00

1.4 KiB

tags
tags
research
rag
ocr
benchmark

OCR 모델 벤치마크 리서치

작성일: 2026-03-20 목적: IR덱 등 이미지 기반 PDF의 텍스트 추출에 적합한 OCR 모델 선정

결론

Gemini 2.0 Flash — 속도+품질 최적. OCR 기본 모델로 채택.

벤치마크 조건

  • 대상: TEENDEV IR.pdf (3.5MB, 19페이지, 이미지 기반 PDF)
  • 테스트 페이지: 1, 5, 10 (페이지당 ~1.3MB PNG @300dpi)
  • 환경: 24서버 (GPU 없음)

결과

모델 평균시간/페이지 초/MB 평균글자 품질
Gemini 2.0 Flash 3.4초 2.3 198 한글+영어 정상
gpt-4o 3.9초 3.3 63 일부 페이지 거부
gpt-4o-mini 4.8초 4.3 214 정상
gpt-4.1-mini 5.1초 5.0 201 정상
Gemini 2.5 Flash 6.0초 5.0 205 정상
Gemini 2.5 Pro 15.2초 15.7 198 정상 (느림)
PaddleOCR 3.4 - - - GPU 필요 (서버 불가)

선정 근거

  • Gemini 2.0 Flash가 가장 빠르면서 품질 동일
  • gpt-4o는 안전 정책으로 OCR 거부 발생 → 신뢰성 부족
  • 2.5 Pro/Flash는 품질 동일하나 2~5배 느림
  • PaddleOCR는 OmniDocBench 1위(92.86)이나 GPU 필수

관련 문서