DOCS/workflow/03_rag/companyx_incremental_indexing_workflow.md
2026-03-22 22:57:33 +09:00

4.6 KiB

tags: [workflow, rag, companyx, indexing, batch, incremental]

Company X 단계별 증분 인덱싱 워크플로우

목적

  • NAS 원본 문서에서 대상을 선정하고, 단계별로 인덱싱을 확장하며, 각 단계마다 검색·grounding 품질을 검증한 뒤 다음 단계로 진입하는 상위 실행 흐름을 고정한다.

상위 원칙

단계 정의

단계 대상 수 mtime 컷오프 상태
0단계 200 수동 선정 (latest_200_companyx.txt) 완료
1단계 2,000 2026-01-28 이후 완료 (260322)
2단계 5,000 2025-11-30 이후 미착수

실행 순서

각 단계는 아래 순서를 반복한다.

1. 대상 선정

  • NAS 원본 경로(/mnt/nas/workspace/6.Company X)에서 mtime 기준으로 대상 파일 목록을 생성한다.
  • 이전 단계에서 이미 인덱싱된 파일은 제외한다 (증분).
  • NAS 접속 절차: 51123 Remote Workspace Operations

2. 인덱싱 실행

3. 검색 검증

  • 단계별 대표 질문셋으로 하이브리드 검색(벡터+키워드+그래프) 적중을 확인한다.
  • 검색 절차: RAG 검색·Grounding 요청

4. Grounding 검증

5. 다음 단계 진입 조건

  • 대표 질문셋 적중률이 이전 단계 수준을 유지하거나 개선돼야 한다.
  • grounding 실패율이 증가하면 원인 분석 후 다음 단계를 보류한다.
  • 인덱싱 오류(텍스트 추출 실패, 임베딩 실패)가 전체 대상의 5%를 넘으면 원인을 해소한 뒤 재실행한다.

실패 분기

  • NAS 마운트 불가 시 대상 선정 단계에서 중단한다.
  • 인덱싱 배치 중 부분 실패는 실패 파일 목록을 남기고, 성공분만으로 검증을 진행한다.
  • 검증 품질이 이전 단계보다 떨어지면 다음 단계로 넘어가지 않는다.

0단계 (200개) 검증 결과

1단계 (2,000개) 실행 결과 (260322)

항목
completed 2,369 (기존 200 + 신규 ~1,635 + 재처리 38 + 기타)
failed 136
전체 청크 19,991

검색 품질 상태 (260323 기준)

  • hybrid 검색: 17/17 통과 (벡터가 보완)
  • keyword 단독 검색: 전 질의 0건 — PostgreSQL simple 토크나이저의 한국어 구조적 한계
  • 미해결 이슈: keyword 단독 검색 전질의 0건
  • 근본 해결: MeCab-ko 형태소 분석기 도입 필요

2단계 진입 조건

  • keyword 단독 검색 품질이 미해결이므로, 2단계 진입 전 keyword 축 해결이 선행되어야 함
  • hybrid는 통과하지만 keyword 축이 죽어 있으면 대량 확장 시 검색 품질 저하 위험

관련 문서