3.0 KiB
3.0 KiB
260320 로빙 다형식문서 RAG 적용 1차 계획
목적
- 앞선 1~3차 산출물을 로빙 실제 질의 응답 경로에 연결하는 첫 적용 단계를 정의한다.
- 목표는 "질문 -> 관련 문서 회수 -> 근거 기반 응답"의 최소 폐회로를 만드는 것이다.
참조 문서
- 다형식문서 자동지식화 RAG 파이프라인 아이디어
- 다형식문서 RAG 1차 MD·메타 정규화 계획
- 다형식문서 RAG 2차 PGVector·JSONB 적재 계획
- 다형식문서 RAG 3차 OCR·관계확장·동기화 계획
현재 상태 (260320 확인)
| 항목 | 상태 |
|---|---|
| 대상 파일 리스트 | /tmp/latest_200_companyx.txt (200개) |
| 인덱싱 스크립트 | skill-rag-file/scripts/reindex_companyx_latest_200.py |
| team_id | 79441171-3951-4870-beb8-916d07fe8be5 |
| DB 테이블 | team_document (1,121 completed / 51 processing), team_document_chunk (3,095건) |
| 임베딩 | Gemini Embedding 2, 768차원, HNSW cosine 인덱스 |
| MD 파생본 | 6.Company X_md/ 48,906개 생성 (front matter만, 본문 미추출) |
| NAS 문서 저장 | documents/companyx/ (로빙 수집 원본), documents/companyx_md/ (로빙 생성 MD) |
- 1차(MD 생성): front matter 완료, 본문 미추출
- 2차(DB 적재): 200개 대상 텍스트 추출 + 청크 + 임베딩 완료
- 3차(OCR/관계/동기화): 미착수
- 4차(로빙 연결): 미착수 ← 현재 목표
적용 범위
rb8001- 필요시
skill-rag-file - 문서 회수와 근거 응답에 필요한 최소 질의 경로
최소 동작 흐름
- 사용자 질문 수신
- 메타 필터 후보 결정
- PGVector/키워드 검색
- 관련 문서 확장
- 근거 청크 선택
- 로빙 응답 생성
- 사용한 근거 기록
1차 목표
- 로빙이 "찾아보겠습니다" 수준이 아니라 실제 근거 문서를 제시하게 한다.
- 근거 문서명, 경로, 핵심 문단을 응답에 포함하게 한다.
- retrieval 실패와 generation 실패를 분리해 로그에 남긴다.
샘플 검증 질문
- 계약/MOU 근거 질문
- 특정 프로그램 운영 근거 질문
- 보고서 내 수치/표 근거 질문
닫는 조건
- 200개 파일(
latest_200_companyx.txt) 대상 완벽 RAG 구성 - 로빙이 200개 파일 범위 내 질문에 근거 문서(문서명, 경로, 핵심 문단)를 포함해 답변한다.
- 근거 없는 경우와 검색 실패를 구분해 응답한다.
- 응답 로그에 사용 문서와 청크가 남는다.
- 대표 질문셋(계약/MOU, 프로그램 운영, 보고서 수치) 검증 통과.
보류
- 완전 자동 자가개선
- 모든 파일 유형에 대한 완전 멀티모달 해석
- 대규모 그래프 탐색 기반 답변