diff --git a/journey/plans/260320_다형식문서_RAG_1차_MD_메타_정규화_계획.md b/journey/plans/260320_다형식문서_RAG_1차_MD_메타_정규화_계획.md index df66bb7..0ba2094 100644 --- a/journey/plans/260320_다형식문서_RAG_1차_MD_메타_정규화_계획.md +++ b/journey/plans/260320_다형식문서_RAG_1차_MD_메타_정규화_계획.md @@ -37,8 +37,8 @@ - ~~샘플 100~500개 파일에서 MD 생성 성공률을 확인한다.~~ → 48,906개 생성됨 - ~~주요 확장자별로 최소 한 번 이상 MD 생성이 검증된다.~~ → pdf/hwp/xlsx/pptx/docx 확인 -- ~~원본 경로와 MD 경로의 1:1 대응이 보장된다.~~ → 원본 53,336 vs MD 48,906 (차이 원인 확인 필요) -- 본문 텍스트 추출 (48,744건이 text_length: 0) +- 원본 경로와 MD 경로의 1:1 대응이 보장된다. → 원본 53,336 vs MD 48,906 (차이 4,430건, 원인 미확인) +- 본문 텍스트 추출이 완료된다. → **미완료**: 48,906건 중 48,744건이 `text_length: 0` (본문 미추출 99.7%) ## 현재 상태 (260320) diff --git a/journey/plans/260320_로빙_다형식문서_RAG_적용1_계획.md b/journey/plans/260320_로빙_다형식문서_RAG_적용1_계획.md index a290a5f..182bf28 100644 --- a/journey/plans/260320_로빙_다형식문서_RAG_적용1_계획.md +++ b/journey/plans/260320_로빙_다형식문서_RAG_적용1_계획.md @@ -82,6 +82,27 @@ 15. 컴퍼니엑스 내부 휴가 규정이 뭐야? → 200개에 없음 16. 컴퍼니엑스 전체 투자사 몇 개야? → 200개로는 일부만 커버 +## 검증 결과 기록 + +| # | 질문 요약 | 검증일 | 결과 | 비고 | +|---|----------|--------|------|------| +| 1 | 아크로셀 정기주총 서류 | | | | +| 2 | 에프앤엘 서면의결서 | | | | +| 3 | IP 투자조합 9호 고유번호증 | | | | +| 4 | 코드크레용 소집통지서 | | | | +| 5 | 앤션트투투데이 재무상태표 | | | | +| 6 | 투자조합별 관리보수 비교 | | | | +| 7 | 다리마티 보통주 계약 조건 | | | | +| 8 | 팁스 운영사 소재지 변경 | | | | +| 9 | 립스 소재지 변경 안내 | | | | +| 10 | 엠에스코스 팁스 추천서 | | | | +| 11 | 팁스 보완 서류 | | | | +| 12 | 오늘전통 6기 사업계획서 | | | | +| 13 | 오늘전통 AC 본점 이전 공문 | | | | +| 14 | e나라도움 정보공시 | | | | +| 15 | 휴가 규정 (실패 예상) | | | | +| 16 | 전체 투자사 수 (실패 예상) | | | | + ## 금지 원칙 - 질문별 하드코딩 특례/폴백/예외 분기를 추가하지 않는다. diff --git a/skills/companyx-rag/SKILL.md b/skills/companyx-rag/SKILL.md index 1273fdd..63cf29a 100644 --- a/skills/companyx-rag/SKILL.md +++ b/skills/companyx-rag/SKILL.md @@ -35,11 +35,9 @@ Use this skill only for Company X users and only when the answer should be groun - Team boundary: `79441171-3951-4870-beb8-916d07fe8be5` - Retrieval service: `skill-rag-file` - Embedding: Gemini Embedding 2 (`gemini-embedding-2-preview`), `768d`, skill-embedding 게이트웨이 경유 -- Storage: PostgreSQL (pgvector) 중심, ChromaDB 병행 -- 청킹: 텍스트 추출 후 문자 단위 분할 (Gemini 2 PDF 직접 임베딩 미적용) -- Current representative evidence set: - - `companyx_todaytradition.pdf` - - `TalkFile_MOU_옐로펀치X컴퍼니엑스- 25.01.23.pdf.pdf` +- Storage: PostgreSQL (pgvector) 단일 운영. ChromaDB는 레거시(운영 비사용). +- 청킹: 텍스트 추출 후 문자 단위 분할 (chunk_size=1000, overlap=200) +- 인덱싱 대상: 200개 파일 (`latest_200_companyx.txt`), DB 기준 `team_document` 1,172건 / `team_document_chunk` 3,095건 - NAS 원본: `/mnt/nas/workspace/6.Company X` (53,249 파일) ## Response Shape