happybell80 1bcbf5c585 docs: add file attachment routing to skills

2026-03-26 20:59:12 +09:00

name, description

name	description
whisper	음성 파일을 텍스트로 변환한다. 사용자가 오디오 파일을 첨부했거나 "이 파일 전사해줘", "회의록 작성해줘", "전사해줘" 등 음성 인식 요청을 할 때 사용한다. 텍스트가 거의 없어도 첨부 메타가 오디오면 이 스킬이 1차 후보다.

whisper

음성 인식 및 텍스트 전사 스킬.

Trigger

transcribe: 음성 파일 전사 요청
voice_to_text: 음성 데이터를 텍스트로 변환
"음성 파일 텍스트로", "회의록" 등 자연어 요청
첨부 파일 조건 (확장자): .m4a, .mp3, .wav, .aac, .ogg, .flac, .opus, .webm(오디오 컨테이너인 경우) 등 일반적인 음성 파일
첨부 파일 조건 (MIME): audio/* (예: audio/mpeg, audio/mp4, audio/wav, audio/x-m4a, audio/ogg), application/octet-stream이어도 확장자가 오디오 목록이면 오디오로 분류
무텍스트·단문: 사용자 본문이 비어 있거나 매우 짧아도 file_summary 또는 file_inputs 상 단일 오디오 첨부면 1차 후보
혼합 첨부: 문서·이미지와 오디오가 함께이면 단일 스킬로 억지 분류하지 않고 needs_clarify 정책을 우선 검토

전사 결과는 텍스트로만 반환한다. 사용자가 같은 스레드에서 "이 전사본을 문서로 올려서 검색해", "첨부한 내용 RAG에 넣어"처럼 문서 인덱싱·검색을 요청하면 skill-rag-file이 다음 후보가 된다.
오디오 파일 자체를 skill-rag-file에 직접 넘기지 않는다. 오디오는 항상 whisper가 선행한다.