From 48cc54066d50d6a2cf0a6d98832c1349b026c574 Mon Sep 17 00:00:00 2001 From: Claude-51124 Date: Wed, 22 Oct 2025 23:06:49 +0900 Subject: [PATCH] =?UTF-8?q?docs(troubleshooting):=20OCRmyPDF=20=EC=82=AC?= =?UTF-8?q?=EC=9D=B4=EB=93=9C=EC=B9=B4=20=EB=B9=84=EA=B5=90=20=EA=B2=B0?= =?UTF-8?q?=EA=B3=BC(eng=20only)=20=EC=B6=94=EA=B0=80=20=E2=80=93=20?= =?UTF-8?q?=ED=95=9C=EA=B8=80=20=EC=96=B8=EC=96=B4=ED=8C=A9=20=EB=AF=B8?= =?UTF-8?q?=ED=83=91=EC=9E=AC=EB=A1=9C=20=EA=B0=9C=EC=84=A0=20=EB=B6=88?= =?UTF-8?q?=EA=B0=80=20=ED=99=95=EC=9D=B8?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit --- ...2_claude_OCR_파이프라인_개선_테스트.md | 13 +++++++++++-- 1 file changed, 11 insertions(+), 2 deletions(-) diff --git a/troubleshooting/251022_claude_OCR_파이프라인_개선_테스트.md b/troubleshooting/251022_claude_OCR_파이프라인_개선_테스트.md index cf06c53..c0bc042 100644 --- a/troubleshooting/251022_claude_OCR_파이프라인_개선_테스트.md +++ b/troubleshooting/251022_claude_OCR_파이프라인_개선_테스트.md @@ -25,7 +25,16 @@ - `POST /api/reindex {"document_id": "611938b0-...", "force_ocr": true}` - 결과: `ocr_used: true`, 청크 수 4 그대로(품질 지표 유사) -3) RAG 질의 테스트 +3) OCRmyPDF 사이드카 비교 테스트 + - 스크립트: `rb8001/tests/test_ocr_pipeline_sidecar.py` + - 시나리오: Docker 이미지(ocrmypdf)로 `kor+eng` 시도→언어팩 미탑재로 실패, `eng`로 재시도 성공 + - 메트릭 비교(서비스 baseline vs OCRmyPDF-eng): + - length: 3226 → 2752 (-474) + - unique_chars: 103 → 98 (-5) + - korean_ratio: 0.000 → 0.000 (변화 없음) + - 결론: 한글 언어팩 없이 OCR 시 품질 개선 불가(오히려 악화) + +4) RAG 질의 테스트 - IR 지표 질의(사업 분야/성장률/팀 구성 등): 대부분 0건(문장 구조/키워드 부재) - 식별 키워드 질의(예: "workvisa", "Team Building"): 해당 문서 포함해 검색됨(단, 의미 문장 근거는 빈약) @@ -36,7 +45,7 @@ ## 권장 개선(코드 변경은 별도 PR) 1) OCR 엔진/옵션 고도화 - - ocrmypdf+Tesseract(ko+eng)로 강제 OCR, 데스큐/회전/해상도(300–600DPI) 표준화. + - ocrmypdf+Tesseract(ko+eng)로 강제 OCR, 데스큐/회전/해상도(300–600DPI) 표준화(한글 언어팩 설치 필수). - PaddleOCR(PP-OCRv4) angle classifier 적용(표/도형/한글 자모 분리·잡음 보정 강화). 2) 품질 휴리스틱 상향 및 폴백