fix: RAG 계획/SKILL.md stale 값 정리 및 검증 기록란 추가

- SKILL.md: ChromaDB 병행 → pgvector 단일 운영, 대표 파일 2개 → 200개 인덱싱 현황으로 갱신
- 1차 계획: 완료 조건에 본문 미추출(99.7%) 미완료 상태 명시, 1:1 대응 차이 수치 반영
- 적용1 계획: 샘플 질문 16개 검증 결과 기록 테이블 추가

Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>
This commit is contained in:
happybell80 2026-03-21 12:22:57 +09:00
parent 0252dd1a7f
commit 872ae14f73
3 changed files with 26 additions and 7 deletions

View File

@ -37,8 +37,8 @@
- ~~샘플 100~500개 파일에서 MD 생성 성공률을 확인한다.~~ → 48,906개 생성됨
- ~~주요 확장자별로 최소 한 번 이상 MD 생성이 검증된다.~~ → pdf/hwp/xlsx/pptx/docx 확인
- ~~원본 경로와 MD 경로의 1:1 대응이 보장된다.~~ → 원본 53,336 vs MD 48,906 (차이 원인 확인 필요)
- 본문 텍스트 추출 (48,744건이 text_length: 0)
- 원본 경로와 MD 경로의 1:1 대응이 보장된다. → 원본 53,336 vs MD 48,906 (차이 4,430건, 원인 확인)
- 본문 텍스트 추출이 완료된다. → **미완료**: 48,906건 중 48,744건이 `text_length: 0` (본문 미추출 99.7%)
## 현재 상태 (260320)

View File

@ -82,6 +82,27 @@
15. 컴퍼니엑스 내부 휴가 규정이 뭐야? → 200개에 없음
16. 컴퍼니엑스 전체 투자사 몇 개야? → 200개로는 일부만 커버
## 검증 결과 기록
| # | 질문 요약 | 검증일 | 결과 | 비고 |
|---|----------|--------|------|------|
| 1 | 아크로셀 정기주총 서류 | | | |
| 2 | 에프앤엘 서면의결서 | | | |
| 3 | IP 투자조합 9호 고유번호증 | | | |
| 4 | 코드크레용 소집통지서 | | | |
| 5 | 앤션트투투데이 재무상태표 | | | |
| 6 | 투자조합별 관리보수 비교 | | | |
| 7 | 다리마티 보통주 계약 조건 | | | |
| 8 | 팁스 운영사 소재지 변경 | | | |
| 9 | 립스 소재지 변경 안내 | | | |
| 10 | 엠에스코스 팁스 추천서 | | | |
| 11 | 팁스 보완 서류 | | | |
| 12 | 오늘전통 6기 사업계획서 | | | |
| 13 | 오늘전통 AC 본점 이전 공문 | | | |
| 14 | e나라도움 정보공시 | | | |
| 15 | 휴가 규정 (실패 예상) | | | |
| 16 | 전체 투자사 수 (실패 예상) | | | |
## 금지 원칙
- 질문별 하드코딩 특례/폴백/예외 분기를 추가하지 않는다.

View File

@ -35,11 +35,9 @@ Use this skill only for Company X users and only when the answer should be groun
- Team boundary: `79441171-3951-4870-beb8-916d07fe8be5`
- Retrieval service: `skill-rag-file`
- Embedding: Gemini Embedding 2 (`gemini-embedding-2-preview`), `768d`, skill-embedding 게이트웨이 경유
- Storage: PostgreSQL (pgvector) 중심, ChromaDB 병행
- 청킹: 텍스트 추출 후 문자 단위 분할 (Gemini 2 PDF 직접 임베딩 미적용)
- Current representative evidence set:
- `companyx_todaytradition.pdf`
- `TalkFile_MOU_옐로펀치X컴퍼니엑스- 25.01.23.pdf.pdf`
- Storage: PostgreSQL (pgvector) 단일 운영. ChromaDB는 레거시(운영 비사용).
- 청킹: 텍스트 추출 후 문자 단위 분할 (chunk_size=1000, overlap=200)
- 인덱싱 대상: 200개 파일 (`latest_200_companyx.txt`), DB 기준 `team_document` 1,172건 / `team_document_chunk` 3,095건
- NAS 원본: `/mnt/nas/workspace/6.Company X` (53,249 파일)
## Response Shape