docs(troubleshooting): kor+eng OCR 사이드카 테스트 결과 추가(한글 언어팩 설치 후 품질 지표 개선 확인)

This commit is contained in:
Claude-51124 2025-10-22 23:11:02 +09:00
parent 48cc54066d
commit d9cbed45fd

View File

@ -32,7 +32,12 @@
- length: 3226 → 2752 (-474) - length: 3226 → 2752 (-474)
- unique_chars: 103 → 98 (-5) - unique_chars: 103 → 98 (-5)
- korean_ratio: 0.000 → 0.000 (변화 없음) - korean_ratio: 0.000 → 0.000 (변화 없음)
- 결론: 한글 언어팩 없이 OCR 시 품질 개선 불가(오히려 악화) - 1차(eng only): 개선 없음 → 한글 언어팩 미탑재 이슈 확인
- 2차(kor 패키지 설치 후 kor+eng):
- 실행: `docker run --entrypoint /bin/sh jbarlow83/ocrmypdf:latest -lc "apt-get update && apt-get install -y tesseract-ocr-kor && ocrmypdf ... -l kor+eng --sidecar ..."`
- 사이드카 텍스트 메트릭: length 3282, unique_chars 317, korean_ratio 0.269
- 베이스라인 대비: unique_chars +214, korean_ratio +0.269 → 유의미 개선
- 결론: kor 언어팩 추가 시 품질 개선 확인(ko+eng 조합 필수)
4) RAG 질의 테스트 4) RAG 질의 테스트
- IR 지표 질의(사업 분야/성장률/팀 구성 등): 대부분 0건(문장 구조/키워드 부재) - IR 지표 질의(사업 분야/성장률/팀 구성 등): 대부분 0건(문장 구조/키워드 부재)