happybell80 0364e2f424 docs: 260320 RAG·workflow 프론트메타 type/tags 정비

Made-with: Cursor

2026-03-22 08:15:47 +09:00

3.0 KiB

Raw Blame History

tags, type, status, research_target

OCR 선별 적용 정책 리서치

상태

proposed

작성일: 2026-03-20
목적: OCR을 모든 파일에 전수 적용하지 않고, 가치가 높은 파일에 선별 적용하는 기준을 정리한다.

1. 결론

OCR은 필요하지만 전수 OCR은 비효율적이다.
먼저 기본 메타를 뽑고, 그 메타를 바탕으로 OCR 필요 대상을 고르는 것이 맞다.
OCR은 "문서를 이해하기 위한 기본값"이 아니라 "텍스트 추출이 부족한 파일을 보강하는 수단"으로 둬야 한다.

2. 왜 전수 OCR이 비효율적인가

이미지가 많은 파일은 시간이 오래 걸린다.
로고, 장식 이미지, 단순 사진까지 OCR하면 비용과 시간이 급증한다.
실제 검색에 도움이 되는 파일과 그렇지 않은 파일을 구분하지 못한다.

3. OCR 우선 대상 조건 제안

text_length가 매우 낮다.
image_count가 높다.
파일 타입이 JPG/PNG/PDF 스캔본이다.
계약서, 제안서, 보고서처럼 문맥 가치가 높다.
사람이 "텍스트가 안 잡힌다"고 피드백한 파일이다.

4. 예시 규칙

조건	해석	추천 액션
`text_length < 1000` and `image_count >= 3`	스캔 PDF 가능성 높음	OCR 후보
`file_type in (jpg, png)`	텍스트 원문 없음	OCR 후보
`file_type = pdf` and `table_count = 0` and `image_count > 5`	그래프/이미지 중심 PDF 가능성	OCR 또는 이미지 설명 후보
`file_type in (docx, hwp)` and `text_length` 충분	이미 본문 확보	OCR 불필요

5. OCR 후 MD에 추가할 내용

OCR 텍스트 원문
OCR 수행 시각
OCR 엔진
OCR 신뢰도
OCR 대상 이미지/페이지 정보

6. 내가 추천하는 처리 전략

6.1 1단계

모든 파일에 대해 최소 MD와 기본 메타를 만든다.

6.2 2단계

메타 기준으로 OCR 후보군만 분리한다.

6.3 3단계

OCR 결과를 기존 MD에 섹션으로 추가한다.

6.4 4단계

OCR 전/후 검색 품질 차이가 큰 유형만 정책화한다.

7. LLM과 OCR의 역할 분리

OCR은 문자 인식이다.
LLM은 요약, 태그, 설명, 캡션 보강이다.
OCR을 먼저 하고, LLM은 OCR 결과가 붙은 문서를 후속 해석하는 편이 맞다.

3.0 KiB

Raw Blame History

OCR 선별 적용 정책 리서치

상태

1. 결론

2. 왜 전수 OCR이 비효율적인가

3. OCR 우선 대상 조건 제안

4. 예시 규칙

5. OCR 후 MD에 추가할 내용

6. 내가 추천하는 처리 전략

6.1 1단계

6.2 2단계

6.3 3단계

6.4 4단계

7. LLM과 OCR의 역할 분리

8. 운영 상태 필드 제안

9. 추천 보류

10. 관련 문서

3.0 KiB Raw Blame History

OCR 선별 적용 정책 리서치

상태

1. 결론

2. 왜 전수 OCR이 비효율적인가

3. OCR 우선 대상 조건 제안

4. 예시 규칙

5. OCR 후 MD에 추가할 내용

6. 내가 추천하는 처리 전략

6.1 1단계

6.2 2단계

6.3 3단계

6.4 4단계

7. LLM과 OCR의 역할 분리

8. 운영 상태 필드 제안

9. 추천 보류

10. 관련 문서

3.0 KiB

Raw Blame History