From d9cbed45fd2a20869d9898aa08d1c05ac5751d4e Mon Sep 17 00:00:00 2001 From: Claude-51124 Date: Wed, 22 Oct 2025 23:11:02 +0900 Subject: [PATCH] =?UTF-8?q?docs(troubleshooting):=20kor+eng=20OCR=20?= =?UTF-8?q?=EC=82=AC=EC=9D=B4=EB=93=9C=EC=B9=B4=20=ED=85=8C=EC=8A=A4?= =?UTF-8?q?=ED=8A=B8=20=EA=B2=B0=EA=B3=BC=20=EC=B6=94=EA=B0=80(=ED=95=9C?= =?UTF-8?q?=EA=B8=80=20=EC=96=B8=EC=96=B4=ED=8C=A9=20=EC=84=A4=EC=B9=98=20?= =?UTF-8?q?=ED=9B=84=20=ED=92=88=EC=A7=88=20=EC=A7=80=ED=91=9C=20=EA=B0=9C?= =?UTF-8?q?=EC=84=A0=20=ED=99=95=EC=9D=B8)?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit --- .../251022_claude_OCR_파이프라인_개선_테스트.md | 7 ++++++- 1 file changed, 6 insertions(+), 1 deletion(-) diff --git a/troubleshooting/251022_claude_OCR_파이프라인_개선_테스트.md b/troubleshooting/251022_claude_OCR_파이프라인_개선_테스트.md index c0bc042..6021877 100644 --- a/troubleshooting/251022_claude_OCR_파이프라인_개선_테스트.md +++ b/troubleshooting/251022_claude_OCR_파이프라인_개선_테스트.md @@ -32,7 +32,12 @@ - length: 3226 → 2752 (-474) - unique_chars: 103 → 98 (-5) - korean_ratio: 0.000 → 0.000 (변화 없음) - - 결론: 한글 언어팩 없이 OCR 시 품질 개선 불가(오히려 악화) + - 1차(eng only): 개선 없음 → 한글 언어팩 미탑재 이슈 확인 + - 2차(kor 패키지 설치 후 kor+eng): + - 실행: `docker run --entrypoint /bin/sh jbarlow83/ocrmypdf:latest -lc "apt-get update && apt-get install -y tesseract-ocr-kor && ocrmypdf ... -l kor+eng --sidecar ..."` + - 사이드카 텍스트 메트릭: length 3282, unique_chars 317, korean_ratio 0.269 + - 베이스라인 대비: unique_chars +214, korean_ratio +0.269 → 유의미 개선 + - 결론: kor 언어팩 추가 시 품질 개선 확인(ko+eng 조합 필수) 4) RAG 질의 테스트 - IR 지표 질의(사업 분야/성장률/팀 구성 등): 대부분 0건(문장 구조/키워드 부재)