DOCS/journey/plans/260320_로빙_다형식문서_RAG_적용1_계획.md
2026-03-20 17:31:31 +09:00

3.0 KiB

260320 로빙 다형식문서 RAG 적용 1차 계획

목적

  • 앞선 1~3차 산출물을 로빙 실제 질의 응답 경로에 연결하는 첫 적용 단계를 정의한다.
  • 목표는 "질문 -> 관련 문서 회수 -> 근거 기반 응답"의 최소 폐회로를 만드는 것이다.

참조 문서

현재 상태 (260320 확인)

항목 상태
대상 파일 리스트 /tmp/latest_200_companyx.txt (200개)
인덱싱 스크립트 skill-rag-file/scripts/reindex_companyx_latest_200.py
team_id 79441171-3951-4870-beb8-916d07fe8be5
DB 테이블 team_document (1,121 completed / 51 processing), team_document_chunk (3,095건)
임베딩 Gemini Embedding 2, 768차원, HNSW cosine 인덱스
MD 파생본 6.Company X_md/ 48,906개 생성 (front matter만, 본문 미추출)
NAS 문서 저장 documents/companyx/ (로빙 수집 원본), documents/companyx_md/ (로빙 생성 MD)
  • 1차(MD 생성): front matter 완료, 본문 미추출
  • 2차(DB 적재): 200개 대상 텍스트 추출 + 청크 + 임베딩 완료
  • 3차(OCR/관계/동기화): 미착수
  • 4차(로빙 연결): 미착수 ← 현재 목표

적용 범위

  • rb8001
  • 필요시 skill-rag-file
  • 문서 회수와 근거 응답에 필요한 최소 질의 경로

최소 동작 흐름

  1. 사용자 질문 수신
  2. 메타 필터 후보 결정
  3. PGVector/키워드 검색
  4. 관련 문서 확장
  5. 근거 청크 선택
  6. 로빙 응답 생성
  7. 사용한 근거 기록

1차 목표

  • 로빙이 "찾아보겠습니다" 수준이 아니라 실제 근거 문서를 제시하게 한다.
  • 근거 문서명, 경로, 핵심 문단을 응답에 포함하게 한다.
  • retrieval 실패와 generation 실패를 분리해 로그에 남긴다.

샘플 검증 질문

  • 계약/MOU 근거 질문
  • 특정 프로그램 운영 근거 질문
  • 보고서 내 수치/표 근거 질문

닫는 조건

  • 200개 파일(latest_200_companyx.txt) 대상 완벽 RAG 구성
  • 로빙이 200개 파일 범위 내 질문에 근거 문서(문서명, 경로, 핵심 문단)를 포함해 답변한다.
  • 근거 없는 경우와 검색 실패를 구분해 응답한다.
  • 응답 로그에 사용 문서와 청크가 남는다.
  • 대표 질문셋(계약/MOU, 프로그램 운영, 보고서 수치) 검증 통과.

보류

  • 완전 자동 자가개선
  • 모든 파일 유형에 대한 완전 멀티모달 해석
  • 대규모 그래프 탐색 기반 답변