diff --git a/journey/plans/260320_다형식문서_RAG_1차_MD_메타_정규화_계획.md b/journey/plans/260320_다형식문서_RAG_1차_MD_메타_정규화_계획.md index 78610cf..3b7a057 100644 --- a/journey/plans/260320_다형식문서_RAG_1차_MD_메타_정규화_계획.md +++ b/journey/plans/260320_다형식문서_RAG_1차_MD_메타_정규화_계획.md @@ -44,6 +44,12 @@ - 주요 확장자별로 최소 한 번 이상 MD 생성이 검증된다. - 원본 경로와 MD 경로의 1:1 대응이 보장된다. +## 현재 상태 (260320) + +- `6.Company X_md/`에 48,906개 MD 생성 완료 (front matter만, 본문 text_length: 0이 48,744건) +- 파일명 규칙: `원본파일명_확장자.md` 적용됨 +- front matter: title, source_path, md_path, file_type, file_size, modified_at, status, text_length, summary + ## 보류 - OCR diff --git a/journey/plans/260320_다형식문서_RAG_2차_PGVector_JSONB_적재_계획.md b/journey/plans/260320_다형식문서_RAG_2차_PGVector_JSONB_적재_계획.md index e473286..0380b89 100644 --- a/journey/plans/260320_다형식문서_RAG_2차_PGVector_JSONB_적재_계획.md +++ b/journey/plans/260320_다형식문서_RAG_2차_PGVector_JSONB_적재_계획.md @@ -38,6 +38,14 @@ - source_path 기준 중복 적재 방지가 된다. - 재적재 시 변경 문서만 갱신할 수 있다. +## 현재 상태 (260320) + +- `team_document`: Company X 1,121건 completed, 51건 processing +- `team_document_chunk`: 3,095건 (768차원 임베딩, HNSW cosine 인덱스) +- 인덱싱 스크립트: `skill-rag-file/scripts/reindex_companyx_latest_200.py` +- 200개 대상 파일 리스트: `/tmp/latest_200_companyx.txt` +- 텍스트 추출 + 청크 + Gemini Embedding 2 적재 완료 + ## 보류 - OCR 보강 diff --git a/journey/plans/260320_로빙_다형식문서_RAG_적용1_계획.md b/journey/plans/260320_로빙_다형식문서_RAG_적용1_계획.md index 42de9d2..228fcaf 100644 --- a/journey/plans/260320_로빙_다형식문서_RAG_적용1_계획.md +++ b/journey/plans/260320_로빙_다형식문서_RAG_적용1_계획.md @@ -12,6 +12,23 @@ - [다형식문서 RAG 2차 PGVector·JSONB 적재 계획](./260320_다형식문서_RAG_2차_PGVector_JSONB_적재_계획.md) - [다형식문서 RAG 3차 OCR·관계확장·동기화 계획](./260320_다형식문서_RAG_3차_OCR_관계확장_동기화_계획.md) +## 현재 상태 (260320 확인) + +| 항목 | 상태 | +|------|------| +| 대상 파일 리스트 | `/tmp/latest_200_companyx.txt` (200개) | +| 인덱싱 스크립트 | `skill-rag-file/scripts/reindex_companyx_latest_200.py` | +| team_id | `79441171-3951-4870-beb8-916d07fe8be5` | +| DB 테이블 | `team_document` (1,121 completed / 51 processing), `team_document_chunk` (3,095건) | +| 임베딩 | Gemini Embedding 2, 768차원, HNSW cosine 인덱스 | +| MD 파생본 | `6.Company X_md/` 48,906개 생성 (front matter만, 본문 미추출) | +| NAS 문서 저장 | `documents/companyx/` (로빙 수집 원본), `documents/companyx_md/` (로빙 생성 MD) | + +- 1차(MD 생성): front matter 완료, 본문 미추출 +- 2차(DB 적재): 200개 대상 텍스트 추출 + 청크 + 임베딩 완료 +- 3차(OCR/관계/동기화): 미착수 +- **4차(로빙 연결): 미착수 ← 현재 목표** + ## 적용 범위 - `rb8001` @@ -40,11 +57,13 @@ - 특정 프로그램 운영 근거 질문 - 보고서 내 수치/표 근거 질문 -## 완료 조건 +## 닫는 조건 -- 대표 질문셋에서 근거 문서 회수가 실제로 일어난다. -- 근거 없는 경우와 검색 실패 경우를 구분해 응답한다. +- **200개 파일(`latest_200_companyx.txt`) 대상 완벽 RAG 구성** +- 로빙이 200개 파일 범위 내 질문에 근거 문서(문서명, 경로, 핵심 문단)를 포함해 답변한다. +- 근거 없는 경우와 검색 실패를 구분해 응답한다. - 응답 로그에 사용 문서와 청크가 남는다. +- 대표 질문셋(계약/MOU, 프로그램 운영, 보고서 수치) 검증 통과. ## 보류