tags, type, status, research_target
tags
type
status
research_target
research
rag
robeing
ocr
policy
cost
research
open
OCR 전수 대신 선별 적용 기준과 비용-품질 정책 정리
OCR 선별 적용 정책 리서치
상태
작성일 : 2026-03-20
목적 : OCR을 모든 파일에 전수 적용하지 않고, 가치가 높은 파일에 선별 적용하는 기준을 정리한다.
1. 결론
OCR은 필요하지만 전수 OCR은 비효율적이다.
먼저 기본 메타를 뽑고, 그 메타를 바탕으로 OCR 필요 대상을 고르는 것이 맞다.
OCR은 "문서를 이해하기 위한 기본값"이 아니라 "텍스트 추출이 부족한 파일을 보강하는 수단"으로 둬야 한다.
2. 왜 전수 OCR이 비효율적인가
이미지가 많은 파일은 시간이 오래 걸린다.
로고, 장식 이미지, 단순 사진까지 OCR하면 비용과 시간이 급증한다.
실제 검색에 도움이 되는 파일과 그렇지 않은 파일을 구분하지 못한다.
3. OCR 우선 대상 조건 제안
text_length가 매우 낮다.
image_count가 높다.
파일 타입이 JPG/PNG/PDF 스캔본이다.
계약서, 제안서, 보고서처럼 문맥 가치가 높다.
사람이 "텍스트가 안 잡힌다"고 피드백한 파일이다.
4. 예시 규칙
조건
해석
추천 액션
text_length < 1000 and image_count >= 3
스캔 PDF 가능성 높음
OCR 후보
file_type in (jpg, png)
텍스트 원문 없음
OCR 후보
file_type = pdf and table_count = 0 and image_count > 5
그래프/이미지 중심 PDF 가능성
OCR 또는 이미지 설명 후보
file_type in (docx, hwp) and text_length 충분
이미 본문 확보
OCR 불필요
5. OCR 후 MD에 추가할 내용
OCR 텍스트 원문
OCR 수행 시각
OCR 엔진
OCR 신뢰도
OCR 대상 이미지/페이지 정보
6. 내가 추천하는 처리 전략
6.1 1단계
모든 파일에 대해 최소 MD와 기본 메타를 만든다.
6.2 2단계
6.3 3단계
OCR 결과를 기존 MD에 섹션으로 추가한다.
6.4 4단계
OCR 전/후 검색 품질 차이가 큰 유형만 정책화한다.
7. LLM과 OCR의 역할 분리
OCR은 문자 인식이다.
LLM은 요약, 태그, 설명, 캡션 보강이다.
OCR을 먼저 하고, LLM은 OCR 결과가 붙은 문서를 후속 해석하는 편이 맞다.
8. 운영 상태 필드 제안
ocr_status: pending | completed | skipped | failed
ocr_reason
ocr_engine
ocr_confidence
9. 추천 보류
초기 단계부터 이미지 캡션 생성까지 모두 전수 적용
OCR과 LLM 해석을 한 배치에 섞는 것
OCR 실패 파일을 즉시 수동 처리 대상으로 돌리는 것
현재 상태 보정 (2026-03-22)
OCR: 미구현. 정책은 설계 단계, 실제 운영은 텍스트 추출 + PDF 바이너리 직접 임베딩 수준.
MD 파생본 48,906개 중 본문 text_length: 0이 48,744건(99.7% 미추출) — OCR이 본문 채움의 핵심 수단.
NAS 원본: /mnt/nas/workspace/6.Company X — 53,249파일.
Unresolved
OCR 대상을 고른 뒤 어떤 배치 단위와 실패 재시도로 돌릴지 운영 기준이 없다.
OCR 보강이 실제 검색 품질을 얼마나 올리는지 측정 지표가 아직 고정되지 않았다.
10. 관련 문서