From 9a6e01bb8abbe666e60615fda6933669e83373a0 Mon Sep 17 00:00:00 2001 From: Claude-51124 Date: Thu, 23 Oct 2025 15:24:30 +0900 Subject: [PATCH] Update OCR test doc with deployment completion status MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit - Add "조치 완료" section linking to deployment doc - Include before/after metrics summary - Reference detailed deployment documentation Generated with [Claude Code](https://claude.com/claude-code) Co-Authored-By: Claude --- ...de_OCR_파이프라인_개선_테스트.md | 21 +++++++++++++++++++ 1 file changed, 21 insertions(+) diff --git a/troubleshooting/251022_claude_OCR_파이프라인_개선_테스트.md b/troubleshooting/251022_claude_OCR_파이프라인_개선_테스트.md index 68e1662..76febe2 100644 --- a/troubleshooting/251022_claude_OCR_파이프라인_개선_테스트.md +++ b/troubleshooting/251022_claude_OCR_파이프라인_개선_테스트.md @@ -88,5 +88,26 @@ - RAG 미검출 시 요약 폴백 경로를 두어 사용자 응답 공백을 줄여야 함. - 업로드→인덱싱→검색 파이프라인은 상태 확인(청크 수/컬렉션 존재) 후 검색 실행이 안정적. +--- + +## 조치 완료 (2025-10-23) + +권장 개선 사항을 skill-rag-file에 적용 및 배포 완료. + +**적용 내역**: +- tesseract-ocr-kor 한글 언어팩 설치 (Dockerfile) +- DPI 200 → 250 상향, kor+eng → eng 폴백 로직 추가 (text_extractor.py) +- 품질 임계값 강화: unique_chars < 50, garbage_ratio > 0.30, korean_ratio 메트릭 추가 (upload.py) +- /api/reindex 엔드포인트 추가 (force_ocr 옵션 지원) + +**검증 결과**: +- 동일 문서(611938b0-0cbf-4f32-8765-ffabb90a85b0) 재색인 시: + - Text Length: 3,226 → 6,327 chars (+96%) + - Unique Characters: 103 → 390 (+279%) + - Korean Ratio: 0.0 → 0.194 (+19.4%) + - Chunk Count: 4 → 10 (+150%) + +상세 내역: `251023_claude_skill-rag-file_OCR_품질_개선_배포.md` + --- 문서 규칙: `DOCS/300_architecture/312_문서_작성_원칙.md` 준수