DOCS/workflow/03_rag/companyx_incremental_indexing_workflow.md
happybell80 9f8fa21830 RAG 워크플로우 정비: 3중 검색 반영 + 단계별 증분 인덱싱 워크플로우 추가
- companyx_grounding_pipeline: team_id 기반 라우팅, 멀티쿼리, hybrid RRF 반영
- rag_search_grounding_request: search_mode, threshold, 점수 필드 추가
- rag_upload_indexing_pipeline: 청킹/임베딩/tsvector 기준 명시
- companyx_incremental_indexing_workflow: 200→2000→5000 단계별 실행 흐름 (신규)
- README: 인덱스에 증분 인덱싱 워크플로우 추가

Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>
2026-03-21 16:41:17 +09:00

3.2 KiB

tags: [workflow, rag, companyx, indexing, batch, incremental]

Company X 단계별 증분 인덱싱 워크플로우

목적

  • NAS 원본 문서에서 대상을 선정하고, 단계별로 인덱싱을 확장하며, 각 단계마다 검색·grounding 품질을 검증한 뒤 다음 단계로 진입하는 상위 실행 흐름을 고정한다.

상위 원칙

단계 정의

단계 대상 수 mtime 컷오프 상태
0단계 200 수동 선정 (latest_200_companyx.txt) 완료
1단계 2,000 2026-01-28 이후 미착수
2단계 5,000 2025-11-30 이후 미착수

실행 순서

각 단계는 아래 순서를 반복한다.

1. 대상 선정

  • NAS 원본 경로(/mnt/nas/workspace/6.Company X)에서 mtime 기준으로 대상 파일 목록을 생성한다.
  • 이전 단계에서 이미 인덱싱된 파일은 제외한다 (증분).
  • NAS 접속 절차: 51123 Remote Workspace Operations

2. 인덱싱 실행

3. 검색 검증

  • 단계별 대표 질문셋으로 하이브리드 검색(벡터+키워드+그래프) 적중을 확인한다.
  • 검색 절차: RAG 검색·Grounding 요청

4. Grounding 검증

5. 다음 단계 진입 조건

  • 대표 질문셋 적중률이 이전 단계 수준을 유지하거나 개선돼야 한다.
  • grounding 실패율이 증가하면 원인 분석 후 다음 단계를 보류한다.
  • 인덱싱 오류(텍스트 추출 실패, 임베딩 실패)가 전체 대상의 5%를 넘으면 원인을 해소한 뒤 재실행한다.

실패 분기

  • NAS 마운트 불가 시 대상 선정 단계에서 중단한다.
  • 인덱싱 배치 중 부분 실패는 실패 파일 목록을 남기고, 성공분만으로 검증을 진행한다.
  • 검증 품질이 이전 단계보다 떨어지면 다음 단계로 넘어가지 않는다.

0단계 (200개) 검증 결과

관련 문서