diff --git a/troubleshooting/251022_claude_OCR_파이프라인_개선_테스트.md b/troubleshooting/251022_claude_OCR_파이프라인_개선_테스트.md index c0bc042..6021877 100644 --- a/troubleshooting/251022_claude_OCR_파이프라인_개선_테스트.md +++ b/troubleshooting/251022_claude_OCR_파이프라인_개선_테스트.md @@ -32,7 +32,12 @@ - length: 3226 → 2752 (-474) - unique_chars: 103 → 98 (-5) - korean_ratio: 0.000 → 0.000 (변화 없음) - - 결론: 한글 언어팩 없이 OCR 시 품질 개선 불가(오히려 악화) + - 1차(eng only): 개선 없음 → 한글 언어팩 미탑재 이슈 확인 + - 2차(kor 패키지 설치 후 kor+eng): + - 실행: `docker run --entrypoint /bin/sh jbarlow83/ocrmypdf:latest -lc "apt-get update && apt-get install -y tesseract-ocr-kor && ocrmypdf ... -l kor+eng --sidecar ..."` + - 사이드카 텍스트 메트릭: length 3282, unique_chars 317, korean_ratio 0.269 + - 베이스라인 대비: unique_chars +214, korean_ratio +0.269 → 유의미 개선 + - 결론: kor 언어팩 추가 시 품질 개선 확인(ko+eng 조합 필수) 4) RAG 질의 테스트 - IR 지표 질의(사업 분야/성장률/팀 구성 등): 대부분 0건(문장 구조/키워드 부재)