OCR 파이프라인 개선 테스트 (ko+eng PDF)

배경/문제

NAVER WORKS에서 수신된 이미지 위주 IR PDF가 텍스트 추출 품질이 낮아, RAG 질의(사업분야/매출/팀규모 등) 결과가 미검출(0건)로 이어짐.
예시 파일: WORKVISA_IR(2025.10.14).pdf → document_id=611938b0-0cbf-4f32-8765-ffabb90a85b0

저장 위치: /mnt/51123data/documents/<team_id>/YYYY-MM/<doc_id>.pdf
- 실제 경로: /mnt/51123data/documents/79441171-3951-4870-beb8-916d07fe8be5/2025-10/611938b0-0cbf-4f32-8765-ffabb90a85b0.pdf
스토리지/임베딩: skill-rag-file 컨테이너(8508) + ChromaDB(내부)

텍스트 확인(API)
- GET http://localhost:8508/api/text/611938b0-...
- 결과: chunk_count=4, length≈3226, unique_chars=103, garbage_ratio=0.009, ocr_used: 초기 False → 재색인 후 True
- 본문은 난독 텍스트가 다수(스캔 이미지/비표준 폰트 추정)
재색인(OCR 강제)
- POST /api/reindex {"document_id": "611938b0-...", "force_ocr": true}
- 결과: ocr_used: true, 청크 수 4 그대로(품질 지표 유사)
OCRmyPDF 사이드카 비교 테스트
- 스크립트: rb8001/tests/test_ocr_pipeline_sidecar.py
- 시나리오: Docker 이미지(ocrmypdf)로 kor+eng 시도→언어팩 미탑재로 실패, eng로 재시도 성공
- 메트릭 비교(서비스 baseline vs OCRmyPDF-eng):
  - length: 3226 → 2752 (-474)
  - unique_chars: 103 → 98 (-5)
  - korean_ratio: 0.000 → 0.000 (변화 없음)
- 결론: 한글 언어팩 없이 OCR 시 품질 개선 불가(오히려 악화)
RAG 질의 테스트
- IR 지표 질의(사업 분야/성장률/팀 구성 등): 대부분 0건(문장 구조/키워드 부재)
- 식별 키워드 질의(예: "workvisa", "Team Building"): 해당 문서 포함해 검색됨(단, 의미 문장 근거는 빈약)

OCR 엔진/옵션 고도화
- ocrmypdf+Tesseract(ko+eng)로 강제 OCR, 데스큐/회전/해상도(300–600DPI) 표준화(한글 언어팩 설치 필수).
- PaddleOCR(PP-OCRv4) angle classifier 적용(표/도형/한글 자모 분리·잡음 보정 강화).
품질 휴리스틱 상향 및 폴백
- garbage_ratio/unique_chars/length 임계 재조정, OCR 우선 적용 범위 확대.
- RAG 미검출 시 /api/text 요약 폴백(질의→요약→추출)로 최소 정보 확보.
클라우드 OCR 조건부 폴백(선택)
- Google Vision/NAVER CLOVA/AWS Textract를 저품질 페이지에만 호출(캐시/레이트리밋/비용 상한 포함).

문서 규칙: DOCS/300_architecture/312_문서_작성_원칙.md 준수