diff --git a/troubleshooting/251022_claude_OCR_파이프라인_개선_테스트.md b/troubleshooting/251022_claude_OCR_파이프라인_개선_테스트.md index 68e1662..76febe2 100644 --- a/troubleshooting/251022_claude_OCR_파이프라인_개선_테스트.md +++ b/troubleshooting/251022_claude_OCR_파이프라인_개선_테스트.md @@ -88,5 +88,26 @@ - RAG 미검출 시 요약 폴백 경로를 두어 사용자 응답 공백을 줄여야 함. - 업로드→인덱싱→검색 파이프라인은 상태 확인(청크 수/컬렉션 존재) 후 검색 실행이 안정적. +--- + +## 조치 완료 (2025-10-23) + +권장 개선 사항을 skill-rag-file에 적용 및 배포 완료. + +**적용 내역**: +- tesseract-ocr-kor 한글 언어팩 설치 (Dockerfile) +- DPI 200 → 250 상향, kor+eng → eng 폴백 로직 추가 (text_extractor.py) +- 품질 임계값 강화: unique_chars < 50, garbage_ratio > 0.30, korean_ratio 메트릭 추가 (upload.py) +- /api/reindex 엔드포인트 추가 (force_ocr 옵션 지원) + +**검증 결과**: +- 동일 문서(611938b0-0cbf-4f32-8765-ffabb90a85b0) 재색인 시: + - Text Length: 3,226 → 6,327 chars (+96%) + - Unique Characters: 103 → 390 (+279%) + - Korean Ratio: 0.0 → 0.194 (+19.4%) + - Chunk Count: 4 → 10 (+150%) + +상세 내역: `251023_claude_skill-rag-file_OCR_품질_개선_배포.md` + --- 문서 규칙: `DOCS/300_architecture/312_문서_작성_원칙.md` 준수