Update OCR test doc with deployment completion status

- Add "조치 완료" section linking to deployment doc
- Include before/after metrics summary
- Reference detailed deployment documentation

Generated with [Claude Code](https://claude.com/claude-code)

Co-Authored-By: Claude <noreply@anthropic.com>
This commit is contained in:
Claude-51124 2025-10-23 15:24:30 +09:00
parent 0310b4d2f7
commit 9a6e01bb8a

View File

@ -88,5 +88,26 @@
- RAG 미검출 시 요약 폴백 경로를 두어 사용자 응답 공백을 줄여야 함. - RAG 미검출 시 요약 폴백 경로를 두어 사용자 응답 공백을 줄여야 함.
- 업로드→인덱싱→검색 파이프라인은 상태 확인(청크 수/컬렉션 존재) 후 검색 실행이 안정적. - 업로드→인덱싱→검색 파이프라인은 상태 확인(청크 수/컬렉션 존재) 후 검색 실행이 안정적.
---
## 조치 완료 (2025-10-23)
권장 개선 사항을 skill-rag-file에 적용 및 배포 완료.
**적용 내역**:
- tesseract-ocr-kor 한글 언어팩 설치 (Dockerfile)
- DPI 200 → 250 상향, kor+eng → eng 폴백 로직 추가 (text_extractor.py)
- 품질 임계값 강화: unique_chars < 50, garbage_ratio > 0.30, korean_ratio 메트릭 추가 (upload.py)
- /api/reindex 엔드포인트 추가 (force_ocr 옵션 지원)
**검증 결과**:
- 동일 문서(611938b0-0cbf-4f32-8765-ffabb90a85b0) 재색인 시:
- Text Length: 3,226 → 6,327 chars (+96%)
- Unique Characters: 103 → 390 (+279%)
- Korean Ratio: 0.0 → 0.194 (+19.4%)
- Chunk Count: 4 → 10 (+150%)
상세 내역: `251023_claude_skill-rag-file_OCR_품질_개선_배포.md`
--- ---
문서 규칙: `DOCS/300_architecture/312_문서_작성_원칙.md` 준수 문서 규칙: `DOCS/300_architecture/312_문서_작성_원칙.md` 준수