# 260320 로빙 다형식문서 RAG 적용 1차 계획 ## 목적 - 앞선 1~3차 산출물을 로빙 실제 질의 응답 경로에 연결하는 첫 적용 단계를 정의한다. - 목표는 "질문 -> 관련 문서 회수 -> 근거 기반 응답"의 최소 폐회로를 만드는 것이다. ## 참조 문서 - [다형식문서 자동지식화 RAG 파이프라인 아이디어](../ideas/260320_다형식문서_자동지식화_RAG_파이프라인_아이디어.md) - [다형식문서 RAG 1차 MD·메타 정규화 계획](./260320_다형식문서_RAG_1차_MD_메타_정규화_계획.md) - [다형식문서 RAG 2차 PGVector·JSONB 적재 계획](./260320_다형식문서_RAG_2차_PGVector_JSONB_적재_계획.md) - [다형식문서 RAG 3차 OCR·관계확장·동기화 계획](./260320_다형식문서_RAG_3차_OCR_관계확장_동기화_계획.md) - [PostgreSQL 그래프확장 설계 리서치 (Apache AGE)](../research/rag/260320_PostgreSQL_그래프확장_설계_리서치.md) ## 현재 상태 (260320 확인) | 항목 | 상태 | |------|------| | 대상 파일 리스트 | `/tmp/latest_200_companyx.txt` (200개) | | 인덱싱 스크립트 | `skill-rag-file/scripts/reindex_companyx_latest_200.py` | | team_id | `79441171-3951-4870-beb8-916d07fe8be5` | | DB 테이블 | `team_document` (1,121 completed / 51 processing), `team_document_chunk` (3,095건) | | 임베딩 | Gemini Embedding 2, 768차원, HNSW cosine 인덱스 | | MD 파생본 | `6.Company X_md/` 48,906개 생성 (front matter만, 본문 미추출) | | NAS 문서 저장 | `documents/companyx/` (로빙 수집 원본), `documents/companyx_md/` (로빙 생성 MD) | - 1차(MD 생성): front matter 완료, 본문 미추출 - 2차(DB 적재): 200개 대상 텍스트 추출 + 청크 + 임베딩 완료 - 3차(OCR/관계/동기화): 미착수 - **4차(로빙 연결): 미착수 ← 현재 목표** ## 적용 범위 - `rb8001` - 필요시 `skill-rag-file` - 문서 회수와 근거 응답에 필요한 최소 질의 경로 ## 최소 동작 흐름 1. 사용자 질문 수신 2. 메타 필터 후보 결정 3. PGVector 벡터 검색 (의미 검색) 4. TSVECTOR 키워드 검색 (정확 매칭) 5. 벡터+키워드 하이브리드 점수 합산 (RRF 등) 6. Apache AGE 그래프 관계 확장 7. 근거 청크 선택 8. 로빙 응답 생성 9. 사용한 근거 기록 ## 1차 목표 - 로빙이 "찾아보겠습니다" 수준이 아니라 실제 근거 문서를 제시하게 한다. - 근거 문서명, 경로, 핵심 문단을 응답에 포함하게 한다. - retrieval 실패와 generation 실패를 분리해 로그에 남긴다. ## 샘플 검증 질문 - 계약/MOU 근거 질문 - 특정 프로그램 운영 근거 질문 - 보고서 내 수치/표 근거 질문 ## 닫는 조건 - **200개 파일(`latest_200_companyx.txt`) 대상 완벽 RAG 구성** - 로빙이 200개 파일 범위 내 질문에 근거 문서(문서명, 경로, 핵심 문단)를 포함해 답변한다. - 근거 없는 경우와 검색 실패를 구분해 응답한다. - 응답 로그에 사용 문서와 청크가 남는다. - 대표 질문셋(계약/MOU, 프로그램 운영, 보고서 수치) 검증 통과. ## 보류 - 완전 자동 자가개선 - 모든 파일 유형에 대한 완전 멀티모달 해석 - 대규모 그래프 탐색 기반 답변