diff --git a/troubleshooting/251022_claude_OCR_파이프라인_개선_테스트.md b/troubleshooting/251022_claude_OCR_파이프라인_개선_테스트.md index cf06c53..c0bc042 100644 --- a/troubleshooting/251022_claude_OCR_파이프라인_개선_테스트.md +++ b/troubleshooting/251022_claude_OCR_파이프라인_개선_테스트.md @@ -25,7 +25,16 @@ - `POST /api/reindex {"document_id": "611938b0-...", "force_ocr": true}` - 결과: `ocr_used: true`, 청크 수 4 그대로(품질 지표 유사) -3) RAG 질의 테스트 +3) OCRmyPDF 사이드카 비교 테스트 + - 스크립트: `rb8001/tests/test_ocr_pipeline_sidecar.py` + - 시나리오: Docker 이미지(ocrmypdf)로 `kor+eng` 시도→언어팩 미탑재로 실패, `eng`로 재시도 성공 + - 메트릭 비교(서비스 baseline vs OCRmyPDF-eng): + - length: 3226 → 2752 (-474) + - unique_chars: 103 → 98 (-5) + - korean_ratio: 0.000 → 0.000 (변화 없음) + - 결론: 한글 언어팩 없이 OCR 시 품질 개선 불가(오히려 악화) + +4) RAG 질의 테스트 - IR 지표 질의(사업 분야/성장률/팀 구성 등): 대부분 0건(문장 구조/키워드 부재) - 식별 키워드 질의(예: "workvisa", "Team Building"): 해당 문서 포함해 검색됨(단, 의미 문장 근거는 빈약) @@ -36,7 +45,7 @@ ## 권장 개선(코드 변경은 별도 PR) 1) OCR 엔진/옵션 고도화 - - ocrmypdf+Tesseract(ko+eng)로 강제 OCR, 데스큐/회전/해상도(300–600DPI) 표준화. + - ocrmypdf+Tesseract(ko+eng)로 강제 OCR, 데스큐/회전/해상도(300–600DPI) 표준화(한글 언어팩 설치 필수). - PaddleOCR(PP-OCRv4) angle classifier 적용(표/도형/한글 자모 분리·잡음 보정 강화). 2) 품질 휴리스틱 상향 및 폴백