Update OCR test doc with deployment completion status
- Add "조치 완료" section linking to deployment doc - Include before/after metrics summary - Reference detailed deployment documentation Generated with [Claude Code](https://claude.com/claude-code) Co-Authored-By: Claude <noreply@anthropic.com>
This commit is contained in:
parent
0310b4d2f7
commit
9a6e01bb8a
@ -88,5 +88,26 @@
|
||||
- RAG 미검출 시 요약 폴백 경로를 두어 사용자 응답 공백을 줄여야 함.
|
||||
- 업로드→인덱싱→검색 파이프라인은 상태 확인(청크 수/컬렉션 존재) 후 검색 실행이 안정적.
|
||||
|
||||
---
|
||||
|
||||
## 조치 완료 (2025-10-23)
|
||||
|
||||
권장 개선 사항을 skill-rag-file에 적용 및 배포 완료.
|
||||
|
||||
**적용 내역**:
|
||||
- tesseract-ocr-kor 한글 언어팩 설치 (Dockerfile)
|
||||
- DPI 200 → 250 상향, kor+eng → eng 폴백 로직 추가 (text_extractor.py)
|
||||
- 품질 임계값 강화: unique_chars < 50, garbage_ratio > 0.30, korean_ratio 메트릭 추가 (upload.py)
|
||||
- /api/reindex 엔드포인트 추가 (force_ocr 옵션 지원)
|
||||
|
||||
**검증 결과**:
|
||||
- 동일 문서(611938b0-0cbf-4f32-8765-ffabb90a85b0) 재색인 시:
|
||||
- Text Length: 3,226 → 6,327 chars (+96%)
|
||||
- Unique Characters: 103 → 390 (+279%)
|
||||
- Korean Ratio: 0.0 → 0.194 (+19.4%)
|
||||
- Chunk Count: 4 → 10 (+150%)
|
||||
|
||||
상세 내역: `251023_claude_skill-rag-file_OCR_품질_개선_배포.md`
|
||||
|
||||
---
|
||||
문서 규칙: `DOCS/300_architecture/312_문서_작성_원칙.md` 준수
|
||||
|
||||
Loading…
x
Reference in New Issue
Block a user