DOCS/journey/research/rag/260320_OCR_선별적용_정책_리서치.md

3.0 KiB

tags, type, status, research_target
tags type status research_target
research
rag
robeing
ocr
policy
cost
research open OCR 전수 대신 선별 적용 기준과 비용-품질 정책 정리

OCR 선별 적용 정책 리서치

상태

  • proposed

작성일: 2026-03-20
목적: OCR을 모든 파일에 전수 적용하지 않고, 가치가 높은 파일에 선별 적용하는 기준을 정리한다.


1. 결론

  • OCR은 필요하지만 전수 OCR은 비효율적이다.
  • 먼저 기본 메타를 뽑고, 그 메타를 바탕으로 OCR 필요 대상을 고르는 것이 맞다.
  • OCR은 "문서를 이해하기 위한 기본값"이 아니라 "텍스트 추출이 부족한 파일을 보강하는 수단"으로 둬야 한다.

2. 왜 전수 OCR이 비효율적인가

  • 이미지가 많은 파일은 시간이 오래 걸린다.
  • 로고, 장식 이미지, 단순 사진까지 OCR하면 비용과 시간이 급증한다.
  • 실제 검색에 도움이 되는 파일과 그렇지 않은 파일을 구분하지 못한다.

3. OCR 우선 대상 조건 제안

  • text_length가 매우 낮다.
  • image_count가 높다.
  • 파일 타입이 JPG/PNG/PDF 스캔본이다.
  • 계약서, 제안서, 보고서처럼 문맥 가치가 높다.
  • 사람이 "텍스트가 안 잡힌다"고 피드백한 파일이다.

4. 예시 규칙

조건 해석 추천 액션
text_length < 1000 and image_count >= 3 스캔 PDF 가능성 높음 OCR 후보
file_type in (jpg, png) 텍스트 원문 없음 OCR 후보
file_type = pdf and table_count = 0 and image_count > 5 그래프/이미지 중심 PDF 가능성 OCR 또는 이미지 설명 후보
file_type in (docx, hwp) and text_length 충분 이미 본문 확보 OCR 불필요

5. OCR 후 MD에 추가할 내용

  • OCR 텍스트 원문
  • OCR 수행 시각
  • OCR 엔진
  • OCR 신뢰도
  • OCR 대상 이미지/페이지 정보

6. 내가 추천하는 처리 전략

6.1 1단계

  • 모든 파일에 대해 최소 MD와 기본 메타를 만든다.

6.2 2단계

  • 메타 기준으로 OCR 후보군만 분리한다.

6.3 3단계

  • OCR 결과를 기존 MD에 섹션으로 추가한다.

6.4 4단계

  • OCR 전/후 검색 품질 차이가 큰 유형만 정책화한다.

7. LLM과 OCR의 역할 분리

  • OCR은 문자 인식이다.
  • LLM은 요약, 태그, 설명, 캡션 보강이다.
  • OCR을 먼저 하고, LLM은 OCR 결과가 붙은 문서를 후속 해석하는 편이 맞다.

8. 운영 상태 필드 제안

  • ocr_status: pending | completed | skipped | failed
  • ocr_reason
  • ocr_engine
  • ocr_confidence

9. 추천 보류

  • 초기 단계부터 이미지 캡션 생성까지 모두 전수 적용
  • OCR과 LLM 해석을 한 배치에 섞는 것
  • OCR 실패 파일을 즉시 수동 처리 대상으로 돌리는 것

10. 관련 문서