--- tags: [research, rag, robeing, ocr, policy, cost] type: research status: closed closed_date: 2026-03-22 closed_reason: 설계 목적 달성, 200개 대상 구현 완료, Unresolved는 3차 계획 또는 후속 문서로 이관 research_target: OCR 전수 대신 선별 적용 기준과 비용-품질 정책 정리 --- # OCR 선별 적용 정책 리서치 ## 상태 - proposed **작성일**: 2026-03-20 **목적**: OCR을 모든 파일에 전수 적용하지 않고, 가치가 높은 파일에 선별 적용하는 기준을 정리한다. --- ## 1. 결론 - OCR은 필요하지만 전수 OCR은 비효율적이다. - 먼저 기본 메타를 뽑고, 그 메타를 바탕으로 OCR 필요 대상을 고르는 것이 맞다. - OCR은 "문서를 이해하기 위한 기본값"이 아니라 "텍스트 추출이 부족한 파일을 보강하는 수단"으로 둬야 한다. ## 2. 왜 전수 OCR이 비효율적인가 - 이미지가 많은 파일은 시간이 오래 걸린다. - 로고, 장식 이미지, 단순 사진까지 OCR하면 비용과 시간이 급증한다. - 실제 검색에 도움이 되는 파일과 그렇지 않은 파일을 구분하지 못한다. ## 3. OCR 우선 대상 조건 제안 - `text_length`가 매우 낮다. - `image_count`가 높다. - 파일 타입이 JPG/PNG/PDF 스캔본이다. - 계약서, 제안서, 보고서처럼 문맥 가치가 높다. - 사람이 "텍스트가 안 잡힌다"고 피드백한 파일이다. ## 4. 예시 규칙 | 조건 | 해석 | 추천 액션 | |------|------|-----------| | `text_length < 1000` and `image_count >= 3` | 스캔 PDF 가능성 높음 | OCR 후보 | | `file_type in (jpg, png)` | 텍스트 원문 없음 | OCR 후보 | | `file_type = pdf` and `table_count = 0` and `image_count > 5` | 그래프/이미지 중심 PDF 가능성 | OCR 또는 이미지 설명 후보 | | `file_type in (docx, hwp)` and `text_length` 충분 | 이미 본문 확보 | OCR 불필요 | ## 5. OCR 후 MD에 추가할 내용 - OCR 텍스트 원문 - OCR 수행 시각 - OCR 엔진 - OCR 신뢰도 - OCR 대상 이미지/페이지 정보 ## 6. 내가 추천하는 처리 전략 ### 6.1 1단계 - 모든 파일에 대해 최소 MD와 기본 메타를 만든다. ### 6.2 2단계 - 메타 기준으로 OCR 후보군만 분리한다. ### 6.3 3단계 - OCR 결과를 기존 MD에 섹션으로 추가한다. ### 6.4 4단계 - OCR 전/후 검색 품질 차이가 큰 유형만 정책화한다. ## 7. LLM과 OCR의 역할 분리 - OCR은 문자 인식이다. - LLM은 요약, 태그, 설명, 캡션 보강이다. - OCR을 먼저 하고, LLM은 OCR 결과가 붙은 문서를 후속 해석하는 편이 맞다. ## 8. 운영 상태 필드 제안 - `ocr_status: pending | completed | skipped | failed` - `ocr_reason` - `ocr_engine` - `ocr_confidence` ## 9. 추천 보류 - 초기 단계부터 이미지 캡션 생성까지 모두 전수 적용 - OCR과 LLM 해석을 한 배치에 섞는 것 - OCR 실패 파일을 즉시 수동 처리 대상으로 돌리는 것 ## 현재 상태 보정 (2026-03-22) - OCR: 미구현. 정책은 설계 단계, 실제 운영은 텍스트 추출 + PDF 바이너리 직접 임베딩 수준. - MD 파생본 48,906개 중 본문 text_length: 0이 48,744건(99.7% 미추출) — OCR이 본문 채움의 핵심 수단. - NAS 원본: /mnt/nas/workspace/6.Company X — 53,249파일. ## Unresolved - OCR 대상을 고른 뒤 어떤 배치 단위와 실패 재시도로 돌릴지 운영 기준이 없다. - OCR 보강이 실제 검색 품질을 얼마나 올리는지 측정 지표가 아직 고정되지 않았다. ## 10. 관련 문서 - [Front Matter 메타데이터 설계 리서치](./260320_FrontMatter_메타데이터_설계_리서치.md) - [PGVector·JSONB RAG 스키마 설계 리서치](./260320_PGVector_JSONB_RAG_스키마_설계_리서치.md) - [OCR 모델 벤치마크 리서치](./260320_OCR_모델_벤치마크_리서치.md)