happybell80 21b0d5b9ce close: RAG 열린 문서 8/10 닫기 — 200개 기준 구현 완료

- 아이디어 1: 계획 1~3차 + 적용1로 채택 완료
- 2차 계획: PGVector 적재 + tsvector + 하이브리드 + AGE 구현 완료
- 리서치 6: 설계 목적 달성, Unresolved는 후속 문서로 이관
- 남은 열린 문서: 1차 계획(본문 미추출), 3차 계획(OCR/동기화)

Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>

2026-03-22 09:07:48 +09:00

3.8 KiB

Raw Blame History

tags, type, status, closed_date, closed_reason, research_target

OCR 선별 적용 정책 리서치

상태

proposed

작성일: 2026-03-20
목적: OCR을 모든 파일에 전수 적용하지 않고, 가치가 높은 파일에 선별 적용하는 기준을 정리한다.

1. 결론

OCR은 필요하지만 전수 OCR은 비효율적이다.
먼저 기본 메타를 뽑고, 그 메타를 바탕으로 OCR 필요 대상을 고르는 것이 맞다.
OCR은 "문서를 이해하기 위한 기본값"이 아니라 "텍스트 추출이 부족한 파일을 보강하는 수단"으로 둬야 한다.

2. 왜 전수 OCR이 비효율적인가

이미지가 많은 파일은 시간이 오래 걸린다.
로고, 장식 이미지, 단순 사진까지 OCR하면 비용과 시간이 급증한다.
실제 검색에 도움이 되는 파일과 그렇지 않은 파일을 구분하지 못한다.

3. OCR 우선 대상 조건 제안

text_length가 매우 낮다.
image_count가 높다.
파일 타입이 JPG/PNG/PDF 스캔본이다.
계약서, 제안서, 보고서처럼 문맥 가치가 높다.
사람이 "텍스트가 안 잡힌다"고 피드백한 파일이다.

4. 예시 규칙

조건	해석	추천 액션
`text_length < 1000` and `image_count >= 3`	스캔 PDF 가능성 높음	OCR 후보
`file_type in (jpg, png)`	텍스트 원문 없음	OCR 후보
`file_type = pdf` and `table_count = 0` and `image_count > 5`	그래프/이미지 중심 PDF 가능성	OCR 또는 이미지 설명 후보
`file_type in (docx, hwp)` and `text_length` 충분	이미 본문 확보	OCR 불필요

5. OCR 후 MD에 추가할 내용

OCR 텍스트 원문
OCR 수행 시각
OCR 엔진
OCR 신뢰도
OCR 대상 이미지/페이지 정보

6. 내가 추천하는 처리 전략

6.1 1단계

모든 파일에 대해 최소 MD와 기본 메타를 만든다.

6.2 2단계

메타 기준으로 OCR 후보군만 분리한다.

6.3 3단계

OCR 결과를 기존 MD에 섹션으로 추가한다.

6.4 4단계

OCR 전/후 검색 품질 차이가 큰 유형만 정책화한다.

7. LLM과 OCR의 역할 분리

OCR은 문자 인식이다.
LLM은 요약, 태그, 설명, 캡션 보강이다.
OCR을 먼저 하고, LLM은 OCR 결과가 붙은 문서를 후속 해석하는 편이 맞다.

8. 운영 상태 필드 제안

ocr_status: pending | completed | skipped | failed
ocr_reason
ocr_engine
ocr_confidence

9. 추천 보류

초기 단계부터 이미지 캡션 생성까지 모두 전수 적용
OCR과 LLM 해석을 한 배치에 섞는 것
OCR 실패 파일을 즉시 수동 처리 대상으로 돌리는 것

현재 상태 보정 (2026-03-22)

OCR: 미구현. 정책은 설계 단계, 실제 운영은 텍스트 추출 + PDF 바이너리 직접 임베딩 수준.
MD 파생본 48,906개 중 본문 text_length: 0이 48,744건(99.7% 미추출) — OCR이 본문 채움의 핵심 수단.
NAS 원본: /mnt/nas/workspace/6.Company X — 53,249파일.

Unresolved

OCR 대상을 고른 뒤 어떤 배치 단위와 실패 재시도로 돌릴지 운영 기준이 없다.
OCR 보강이 실제 검색 품질을 얼마나 올리는지 측정 지표가 아직 고정되지 않았다.

3.8 KiB Raw Blame History

OCR 선별 적용 정책 리서치

상태

1. 결론

2. 왜 전수 OCR이 비효율적인가

3. OCR 우선 대상 조건 제안

4. 예시 규칙

5. OCR 후 MD에 추가할 내용

6. 내가 추천하는 처리 전략

6.1 1단계

6.2 2단계

6.3 3단계

6.4 4단계

7. LLM과 OCR의 역할 분리

8. 운영 상태 필드 제안

9. 추천 보류

현재 상태 보정 (2026-03-22)

Unresolved

10. 관련 문서

3.8 KiB

Raw Blame History