4.1 KiB
4.1 KiB
260320 로빙 다형식문서 RAG 적용 1차 계획
목적
- 앞선 1~3차 산출물을 로빙 실제 질의 응답 경로에 연결하는 첫 적용 단계를 정의한다.
- 목표는 "질문 -> 관련 문서 회수 -> 근거 기반 응답"의 최소 폐회로를 만드는 것이다.
참조 문서
- 다형식문서 자동지식화 RAG 파이프라인 아이디어
- 다형식문서 RAG 1차 MD·메타 정규화 계획
- 다형식문서 RAG 2차 PGVector·JSONB 적재 계획
- 다형식문서 RAG 3차 OCR·관계확장·동기화 계획
- PostgreSQL 그래프확장 설계 리서치 (Apache AGE)
- 260315 계획 (닫힘, 본 계획으로 흡수)
- 계획 통합 워크로그
현재 상태 (260320 확인)
| 항목 | 상태 |
|---|---|
| 대상 파일 리스트 | /tmp/latest_200_companyx.txt (200개) |
| 인덱싱 스크립트 | skill-rag-file/scripts/reindex_companyx_latest_200.py |
| team_id | 79441171-3951-4870-beb8-916d07fe8be5 |
| DB 테이블 | team_document (1,121 completed / 51 processing), team_document_chunk (3,095건) |
| 임베딩 | Gemini Embedding 2, 768차원, HNSW cosine 인덱스 |
| MD 파생본 | 6.Company X_md/ 48,906개 생성 (front matter만, 본문 미추출) |
| NAS 문서 저장 | documents/companyx/ (로빙 수집 원본), documents/companyx_md/ (로빙 생성 MD) |
- 1차(MD 생성): front matter 완료, 본문 미추출
- 2차(DB 적재): 200개 대상 텍스트 추출 + 청크 + 임베딩 완료
- 3차(OCR/관계/동기화): 미착수
- 4차(로빙 연결): 미착수 ← 현재 목표
적용 범위
rb8001- 필요시
skill-rag-file - 문서 회수와 근거 응답에 필요한 최소 질의 경로
최소 동작 흐름
- 사용자 질문 수신
- 메타 필터 후보 결정
- PGVector 벡터 검색 (의미 검색)
- TSVECTOR 키워드 검색 (정확 매칭)
- 벡터+키워드 하이브리드 점수 합산 (RRF 등)
- Apache AGE 그래프 관계 확장
- 근거 청크 선택
- 로빙 응답 생성
- 사용한 근거 기록
1차 목표
- 로빙이 "찾아보겠습니다" 수준이 아니라 실제 근거 문서를 제시하게 한다.
- 근거 문서명, 경로, 핵심 문단을 응답에 포함하게 한다.
- retrieval 실패와 generation 실패를 분리해 로그에 남긴다.
샘플 검증 질문
- 계약/MOU 근거 질문
- 특정 프로그램 운영 근거 질문
- 보고서 내 수치/표 근거 질문
260315에서 흡수한 항목
- 인덱싱 파이프라인 배포 (Phase 5A: 코드 완료, 배포 미완)
- 재오픈 질문 20개 Slack 실응답 검증 (Phase 5B)
- Pydantic 출력 검증 구조 (
CompanyXRAGOutput: direct_answer, evidence_docs, failure_reason) - SKILL.md와 코드 계약 정합화
- 질문 유형 계약 / 근거 채택 계약 / 실패 계약 (구현 완료, 검증 미완)
닫는 조건
- 200개 파일(
latest_200_companyx.txt) 대상 완벽 RAG 구성 - 벡터 검색(PGVector) + 키워드 검색(TSVECTOR) + 그래프 탐색(Apache AGE) 3중 검색 동작
- 로빙이 200개 파일 범위 내 질문에 근거 문서(문서명, 경로, 핵심 문단)를 포함해 답변한다.
- LLM 응답이 Pydantic 모델(
CompanyXRAGOutput)로 검증된다. - 근거 없는 경우와 검색 실패를 구분해 응답한다.
- 응답 로그에 사용 문서와 청크가 남는다.
- 대표 질문셋(계약/MOU, 프로그램 운영, 보고서 수치) + 260315 재오픈 질문 20개 검증 통과.
- SKILL.md와 실제 응답 형식 일치.
보류
- 완전 자동 자가개선
- 모든 파일 유형에 대한 완전 멀티모달 해석
- 대규모 그래프 탐색 기반 답변