44 lines
1.4 KiB
Markdown
44 lines
1.4 KiB
Markdown
---
|
|
name: skill-rag-file
|
|
description: PDF, DOCX, TXT 등 문서 RAG 처리 및 검색. 사용자가 "이 문서 분석해줘", "계약서 위험 조항 찾아줘", "IR 자료 요약해줘" 등 문서 기반 요청을 할 때 사용.
|
|
---
|
|
|
|
# skill-rag-file
|
|
|
|
RAG(Retrieval-Augmented Generation) 파일 처리 스킬. 포트 8508.
|
|
|
|
## Trigger
|
|
|
|
- `document_analysis`: 문서 분석, 파일 요약, 계약서/IR 자료 정리
|
|
- `companyx-rag`: Company X 내부 문서 근거 검색 (별도 SKILL 참조)
|
|
|
|
## Do
|
|
|
|
- PDF, DOCX, TXT 텍스트 추출
|
|
- ChromaDB 벡터 저장 및 의미 검색
|
|
- 팀별 문서 격리
|
|
- skill-embedding(8515) 연동
|
|
|
|
## Do Not
|
|
|
|
- 팀 경계 밖 문서 검색 금지
|
|
- 원본 파일 무단 외부 노출 금지
|
|
|
|
## API
|
|
|
|
- `POST /upload` - 파일 업로드 및 처리
|
|
- `POST /search` - RAG 검색
|
|
- `GET /healthz` - 헬스체크
|
|
|
|
## OCR
|
|
|
|
- 모델: `OCR_MODEL=gemini-2.0-flash` (runtime.env SSOT)
|
|
- 용도: 이미지 기반 PDF 텍스트 추출 (text_length 부족 시 선별 적용)
|
|
- 벤치마크: 3.4초/페이지, 2.3초/MB — 속도+품질 최적 ([리서치](../../journey/research/rag/260320_OCR_모델_벤치마크_리서치.md))
|
|
- IR덱 평가 시 텍스트 추출 실패 → OCR fallback 자동 동작 (`ir_deck_workflow.py`)
|
|
|
|
## 환경변수
|
|
|
|
- `DATABASE_URL`, `CHROMA_HOST`, `EMBEDDING_SERVICE_URL`, `DOCUMENT_BASE_PATH`
|
|
- `OCR_MODEL` — OCR 모델 (기본: gemini-2.0-flash)
|