Update OCR test doc with deployment completion status
- Add "조치 완료" section linking to deployment doc - Include before/after metrics summary - Reference detailed deployment documentation Generated with [Claude Code](https://claude.com/claude-code) Co-Authored-By: Claude <noreply@anthropic.com>
This commit is contained in:
parent
0310b4d2f7
commit
9a6e01bb8a
@ -88,5 +88,26 @@
|
|||||||
- RAG 미검출 시 요약 폴백 경로를 두어 사용자 응답 공백을 줄여야 함.
|
- RAG 미검출 시 요약 폴백 경로를 두어 사용자 응답 공백을 줄여야 함.
|
||||||
- 업로드→인덱싱→검색 파이프라인은 상태 확인(청크 수/컬렉션 존재) 후 검색 실행이 안정적.
|
- 업로드→인덱싱→검색 파이프라인은 상태 확인(청크 수/컬렉션 존재) 후 검색 실행이 안정적.
|
||||||
|
|
||||||
|
---
|
||||||
|
|
||||||
|
## 조치 완료 (2025-10-23)
|
||||||
|
|
||||||
|
권장 개선 사항을 skill-rag-file에 적용 및 배포 완료.
|
||||||
|
|
||||||
|
**적용 내역**:
|
||||||
|
- tesseract-ocr-kor 한글 언어팩 설치 (Dockerfile)
|
||||||
|
- DPI 200 → 250 상향, kor+eng → eng 폴백 로직 추가 (text_extractor.py)
|
||||||
|
- 품질 임계값 강화: unique_chars < 50, garbage_ratio > 0.30, korean_ratio 메트릭 추가 (upload.py)
|
||||||
|
- /api/reindex 엔드포인트 추가 (force_ocr 옵션 지원)
|
||||||
|
|
||||||
|
**검증 결과**:
|
||||||
|
- 동일 문서(611938b0-0cbf-4f32-8765-ffabb90a85b0) 재색인 시:
|
||||||
|
- Text Length: 3,226 → 6,327 chars (+96%)
|
||||||
|
- Unique Characters: 103 → 390 (+279%)
|
||||||
|
- Korean Ratio: 0.0 → 0.194 (+19.4%)
|
||||||
|
- Chunk Count: 4 → 10 (+150%)
|
||||||
|
|
||||||
|
상세 내역: `251023_claude_skill-rag-file_OCR_품질_개선_배포.md`
|
||||||
|
|
||||||
---
|
---
|
||||||
문서 규칙: `DOCS/300_architecture/312_문서_작성_원칙.md` 준수
|
문서 규칙: `DOCS/300_architecture/312_문서_작성_원칙.md` 준수
|
||||||
|
|||||||
Loading…
x
Reference in New Issue
Block a user