docs(troubleshooting): kor+eng OCR 사이드카 테스트 결과 추가(한글 언어팩 설치 후 품질 지표 개선 확인)
This commit is contained in:
parent
48cc54066d
commit
d9cbed45fd
@ -32,7 +32,12 @@
|
|||||||
- length: 3226 → 2752 (-474)
|
- length: 3226 → 2752 (-474)
|
||||||
- unique_chars: 103 → 98 (-5)
|
- unique_chars: 103 → 98 (-5)
|
||||||
- korean_ratio: 0.000 → 0.000 (변화 없음)
|
- korean_ratio: 0.000 → 0.000 (변화 없음)
|
||||||
- 결론: 한글 언어팩 없이 OCR 시 품질 개선 불가(오히려 악화)
|
- 1차(eng only): 개선 없음 → 한글 언어팩 미탑재 이슈 확인
|
||||||
|
- 2차(kor 패키지 설치 후 kor+eng):
|
||||||
|
- 실행: `docker run --entrypoint /bin/sh jbarlow83/ocrmypdf:latest -lc "apt-get update && apt-get install -y tesseract-ocr-kor && ocrmypdf ... -l kor+eng --sidecar ..."`
|
||||||
|
- 사이드카 텍스트 메트릭: length 3282, unique_chars 317, korean_ratio 0.269
|
||||||
|
- 베이스라인 대비: unique_chars +214, korean_ratio +0.269 → 유의미 개선
|
||||||
|
- 결론: kor 언어팩 추가 시 품질 개선 확인(ko+eng 조합 필수)
|
||||||
|
|
||||||
4) RAG 질의 테스트
|
4) RAG 질의 테스트
|
||||||
- IR 지표 질의(사업 분야/성장률/팀 구성 등): 대부분 0건(문장 구조/키워드 부재)
|
- IR 지표 질의(사업 분야/성장률/팀 구성 등): 대부분 0건(문장 구조/키워드 부재)
|
||||||
|
|||||||
Loading…
x
Reference in New Issue
Block a user