docs(troubleshooting): OCRmyPDF 사이드카 비교 결과(eng only) 추가 – 한글 언어팩 미탑재로 개선 불가 확인

This commit is contained in:
Claude-51124 2025-10-22 23:06:49 +09:00
parent 33556af2a3
commit 48cc54066d

View File

@ -25,7 +25,16 @@
- `POST /api/reindex {"document_id": "611938b0-...", "force_ocr": true}`
- 결과: `ocr_used: true`, 청크 수 4 그대로(품질 지표 유사)
3) RAG 질의 테스트
3) OCRmyPDF 사이드카 비교 테스트
- 스크립트: `rb8001/tests/test_ocr_pipeline_sidecar.py`
- 시나리오: Docker 이미지(ocrmypdf)로 `kor+eng` 시도→언어팩 미탑재로 실패, `eng`로 재시도 성공
- 메트릭 비교(서비스 baseline vs OCRmyPDF-eng):
- length: 3226 → 2752 (-474)
- unique_chars: 103 → 98 (-5)
- korean_ratio: 0.000 → 0.000 (변화 없음)
- 결론: 한글 언어팩 없이 OCR 시 품질 개선 불가(오히려 악화)
4) RAG 질의 테스트
- IR 지표 질의(사업 분야/성장률/팀 구성 등): 대부분 0건(문장 구조/키워드 부재)
- 식별 키워드 질의(예: "workvisa", "Team Building"): 해당 문서 포함해 검색됨(단, 의미 문장 근거는 빈약)
@ -36,7 +45,7 @@
## 권장 개선(코드 변경은 별도 PR)
1) OCR 엔진/옵션 고도화
- ocrmypdf+Tesseract(ko+eng)로 강제 OCR, 데스큐/회전/해상도(300600DPI) 표준화.
- ocrmypdf+Tesseract(ko+eng)로 강제 OCR, 데스큐/회전/해상도(300600DPI) 표준화(한글 언어팩 설치 필수).
- PaddleOCR(PP-OCRv4) angle classifier 적용(표/도형/한글 자모 분리·잡음 보정 강화).
2) 품질 휴리스틱 상향 및 폴백