docs: add file attachment routing to skills
This commit is contained in:
parent
4e41c606b1
commit
1bcbf5c585
@ -61,6 +61,19 @@ tags: [robeing, skills, ssot]
|
|||||||
| GitHub 이슈/PR/레포 관리 | gitea (provider=github) |
|
| GitHub 이슈/PR/레포 관리 | gitea (provider=github) |
|
||||||
| IMAP/SMTP 메일 (Gmail 외) | himalaya (skill-email) |
|
| IMAP/SMTP 메일 (Gmail 외) | himalaya (skill-email) |
|
||||||
|
|
||||||
|
## 파일 첨부 → 1차 라우팅
|
||||||
|
|
||||||
|
| 파일군 | 대표 확장자 | MIME 상위 | 1차 스킬 | 비고 |
|
||||||
|
|--------|-------------|-----------|----------|------|
|
||||||
|
| 문서 | `pdf`, `docx`, `doc`, `xlsx`, `xls`, `pptx`, `ppt`, `txt`, `md`, `csv`, `tsv`, `json`, `xml`, `html`, `htm` | `application/pdf`, `application/vnd.*`, `text/*`, `application/json` | `skill-rag-file` | 이미지 내장 PDF OCR은 `skill-rag-file` 내부 처리 |
|
||||||
|
| 오디오 | `m4a`, `mp3`, `wav`, `aac`, `ogg`, `flac`, `opus`, `webm` | `audio/*` | `whisper` | `application/octet-stream`이어도 확장자가 오디오면 오디오로 본다 |
|
||||||
|
| 이미지 단독 | `jpg`, `jpeg`, `png`, `webp`, `gif` | `image/*` | 미지원 | 비전 스킬 미구현 상태에서는 라우팅하지 않음 |
|
||||||
|
| 압축 | `zip`, `7z`, `rar`, `tar` | `application/zip` 등 | 미지원 | 안전 정책상 직접 처리하지 않음 |
|
||||||
|
| 실행·바이너리 | `exe`, `dmg`, `app`, `sh`, `bat`, `bin` | `application/x-*` 등 | 미지원 | 문서·오디오 스킬로 라우팅하지 않음 |
|
||||||
|
| 혼합 첨부 | 문서+오디오 등 | 혼합 | `needs_clarify` 우선 | 문서와 오디오를 한 스킬로 억지 병합하지 않음 |
|
||||||
|
|
||||||
|
`whisper` ↔ `skill-rag-file`: 오디오는 먼저 `whisper`로 전사하고, 전사 결과를 문서 인덱싱·검색으로 이어갈 때 `skill-rag-file`이 다음 후보입니다.
|
||||||
|
|
||||||
## 상세 스킬 문서
|
## 상세 스킬 문서
|
||||||
|
|
||||||
각 스킬의 트리거, Do/Do Not, API 경로 등은 위 링크의 상세 문서를 참조하세요.
|
각 스킬의 트리거, Do/Do Not, API 경로 등은 위 링크의 상세 문서를 참조하세요.
|
||||||
|
|||||||
@ -1,6 +1,6 @@
|
|||||||
---
|
---
|
||||||
name: skill-rag-file
|
name: skill-rag-file
|
||||||
description: PDF, DOCX, TXT 등 문서 RAG 처리 및 검색. 사용자가 "이 문서 분석해줘", "계약서 위험 조항 찾아줘", "IR 자료 요약해줘" 등 문서 기반 요청을 할 때 사용.
|
description: PDF·DOCX·스프레드시트·텍스트 등 문서 파일을 RAG로 처리·검색한다. 사용자가 문서 파일을 첨부했거나 "이 문서 분석해줘", "계약서 위험 조항 찾아줘", "IR 자료 요약해줘" 등 문서 기반 요청을 할 때 사용한다. 텍스트가 거의 없어도 첨부 메타가 문서면 이 스킬이 1차 후보다.
|
||||||
---
|
---
|
||||||
|
|
||||||
# skill-rag-file
|
# skill-rag-file
|
||||||
@ -11,6 +11,10 @@ RAG(Retrieval-Augmented Generation) 파일 처리 스킬. 포트 8508.
|
|||||||
|
|
||||||
- `document_analysis`: 문서 분석, 파일 요약, 계약서/IR 자료 정리
|
- `document_analysis`: 문서 분석, 파일 요약, 계약서/IR 자료 정리
|
||||||
- `companyx-rag`: Company X 내부 문서 근거 검색 (별도 SKILL 참조)
|
- `companyx-rag`: Company X 내부 문서 근거 검색 (별도 SKILL 참조)
|
||||||
|
- 첨부 파일 조건 (확장자): `.pdf`, `.docx`, `.doc`, `.xlsx`, `.xls`, `.pptx`, `.ppt`, `.txt`, `.md`, `.csv`, `.tsv`, `.json`, `.xml`, `.html`, `.htm`
|
||||||
|
- 첨부 파일 조건 (MIME): `application/pdf`, `application/vnd.openxmlformats-officedocument.*`, `application/msword`, `application/vnd.ms-excel`, `application/vnd.ms-powerpoint`, `text/*`, `application/json`, `text/csv` 등 문서·텍스트 상위군
|
||||||
|
- 무텍스트·단문: 본문이 비어 있거나 짧아도 첨부 메타가 문서군이면 1차 후보
|
||||||
|
- 오디오·이미지 단독 첨부는 이 스킬의 1차 후보가 아님
|
||||||
|
|
||||||
## Do
|
## Do
|
||||||
|
|
||||||
@ -23,6 +27,14 @@ RAG(Retrieval-Augmented Generation) 파일 처리 스킬. 포트 8508.
|
|||||||
|
|
||||||
- 팀 경계 밖 문서 검색 금지
|
- 팀 경계 밖 문서 검색 금지
|
||||||
- 원본 파일 무단 외부 노출 금지
|
- 원본 파일 무단 외부 노출 금지
|
||||||
|
- 오디오 미지원: `.m4a`, `.mp3`, `.wav`, `.aac`, `.ogg`, `.flac`, `.opus`, `.webm` 등 오디오 파일 전사·분석·RAG 처리 금지. 이 역할은 `whisper`가 담당
|
||||||
|
- 이미지 단독 미지원: `.jpg`, `.jpeg`, `.png`, `.webp`, `.gif` 등 이미지만 첨부된 경우 비대상
|
||||||
|
- 실행·스크립트·압축 파일 및 알 수 없는 바이너리 처리 금지
|
||||||
|
|
||||||
|
## 연계 (선행 스킬)
|
||||||
|
|
||||||
|
- `whisper`로 전사된 텍스트를 사용자가 붙여 넣었거나 직전 턴 전사 결과를 인용하면서 문서 기반 요청을 하면, 문서 파일 첨부가 없어도 본 스킬 후보가 될 수 있다.
|
||||||
|
- 사용자가 오디오 파일을 첨부한 채 분석을 요청하면 오디오는 `whisper`가 먼저 처리하고, 본 스킬은 오디오 바이너리를 직접 받지 않는다.
|
||||||
|
|
||||||
## API
|
## API
|
||||||
|
|
||||||
|
|||||||
@ -1,6 +1,6 @@
|
|||||||
---
|
---
|
||||||
name: whisper
|
name: whisper
|
||||||
description: 음성 파일을 텍스트로 변환. 사용자가 "음성 파일 텍스트로", "회의록 작성해줘", "전사해줘" 등 음성 인식 요청을 할 때 사용.
|
description: 음성 파일을 텍스트로 변환한다. 사용자가 오디오 파일을 첨부했거나 "이 파일 전사해줘", "회의록 작성해줘", "전사해줘" 등 음성 인식 요청을 할 때 사용한다. 텍스트가 거의 없어도 첨부 메타가 오디오면 이 스킬이 1차 후보다.
|
||||||
---
|
---
|
||||||
|
|
||||||
# whisper
|
# whisper
|
||||||
@ -12,6 +12,10 @@ description: 음성 파일을 텍스트로 변환. 사용자가 "음성 파일
|
|||||||
- `transcribe`: 음성 파일 전사 요청
|
- `transcribe`: 음성 파일 전사 요청
|
||||||
- `voice_to_text`: 음성 데이터를 텍스트로 변환
|
- `voice_to_text`: 음성 데이터를 텍스트로 변환
|
||||||
- "음성 파일 텍스트로", "회의록" 등 자연어 요청
|
- "음성 파일 텍스트로", "회의록" 등 자연어 요청
|
||||||
|
- 첨부 파일 조건 (확장자): `.m4a`, `.mp3`, `.wav`, `.aac`, `.ogg`, `.flac`, `.opus`, `.webm`(오디오 컨테이너인 경우) 등 일반적인 음성 파일
|
||||||
|
- 첨부 파일 조건 (MIME): `audio/*` (예: `audio/mpeg`, `audio/mp4`, `audio/wav`, `audio/x-m4a`, `audio/ogg`), `application/octet-stream`이어도 확장자가 오디오 목록이면 오디오로 분류
|
||||||
|
- 무텍스트·단문: 사용자 본문이 비어 있거나 매우 짧아도 `file_summary` 또는 `file_inputs` 상 단일 오디오 첨부면 1차 후보
|
||||||
|
- 혼합 첨부: 문서·이미지와 오디오가 함께이면 단일 스킬로 억지 분류하지 않고 `needs_clarify` 정책을 우선 검토
|
||||||
|
|
||||||
## Do
|
## Do
|
||||||
|
|
||||||
@ -22,6 +26,16 @@ description: 음성 파일을 텍스트로 변환. 사용자가 "음성 파일
|
|||||||
|
|
||||||
- 실시간 스트리밍 음성 전사 (파일 기반만 지원)
|
- 실시간 스트리밍 음성 전사 (파일 기반만 지원)
|
||||||
- 타인의 음성 무단 전사 및 도용
|
- 타인의 음성 무단 전사 및 도용
|
||||||
|
- PDF, DOCX, XLSX, PPTX, TXT, MD, CSV, JSON 등 문서 분석·요약·RAG 처리
|
||||||
|
- JPG, PNG, WEBP, GIF 등 이미지 단독 처리
|
||||||
|
- EXE, DMG, APP, SH, BAT 등 실행·스크립트 파일 처리
|
||||||
|
- ZIP, 7Z, RAR, TAR 등 압축 아카이브 처리
|
||||||
|
- 확장자·MIME 모두 비오디오인 알 수 없는 바이너리 처리
|
||||||
|
|
||||||
|
## 연계 (다음 스킬 후보)
|
||||||
|
|
||||||
|
- 전사 결과는 텍스트로만 반환한다. 사용자가 같은 스레드에서 "이 전사본을 문서로 올려서 검색해", "첨부한 내용 RAG에 넣어"처럼 문서 인덱싱·검색을 요청하면 `skill-rag-file`이 다음 후보가 된다.
|
||||||
|
- 오디오 파일 자체를 `skill-rag-file`에 직접 넘기지 않는다. 오디오는 항상 `whisper`가 선행한다.
|
||||||
|
|
||||||
## API
|
## API
|
||||||
|
|
||||||
|
|||||||
Loading…
x
Reference in New Issue
Block a user