DOCS/workflow/03_rag/companyx_incremental_indexing_workflow.md
happybell80 f078b28ced docs: 03_rag + 04_scheduler + 05_admin 워크플로우 현행화
03_rag:
- companyx_grounding_pipeline.md: 코드 SSOT 섹션 추가, 진입 조건 3단계(IC→마커 폴백) 정확히 기술, 환경변수 참조로 IP 하드코딩 제거
- companyx_incremental_indexing_workflow.md: frontmatter 표준 적용 (type, last_updated)
- rag_upload_indexing_pipeline.md: 코드 SSOT·재인덱싱·업로드 경로별 진입점 테이블 추가, 환경변수 참조

04_scheduler:
- scheduled_daily_briefing.md: n8n cron 전제 제거, APScheduler DB 기반 + LangGraph 워크플로우 기준 재작성
- scheduled_healthcheck_alert.md: n8n cron 전제 제거, /health 엔드포인트 + SKILL.md registry 기반 재작성
- scheduled_rag_reindex_retry.md: 현행 코드에 해당 잡 없음 → _archive 이동

05_admin:
- diary_reflection_pipeline.md: n8n 전제 제거, APScheduler + diary_generator.py 기준 재작성, /api/diary/generate(존재하지 않는 엔드포인트) 제거

Refs: DOCS#8

Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>
2026-04-06 07:52:29 +09:00

4.7 KiB

tags, type, last_updated
tags type last_updated
workflow
rag
companyx
indexing
batch
incremental
workflow 2026-04-06

Company X 단계별 증분 인덱싱 워크플로우

목적

  • NAS 원본 문서에서 대상을 선정하고, 단계별로 인덱싱을 확장하며, 각 단계마다 검색·grounding 품질을 검증한 뒤 다음 단계로 진입하는 상위 실행 흐름을 고정한다.

상위 원칙

단계 정의

단계 대상 수 mtime 컷오프 상태
0단계 200 수동 선정 (latest_200_companyx.txt) 완료
1단계 2,000 2026-01-28 이후 완료 (260322)
2단계 5,000 2025-11-30 이후 미착수

실행 순서

각 단계는 아래 순서를 반복한다.

1. 대상 선정

  • NAS 원본 경로(/mnt/nas/workspace/6.Company X)에서 mtime 기준으로 대상 파일 목록을 생성한다.
  • 이전 단계에서 이미 인덱싱된 파일은 제외한다 (증분).
  • NAS 접속 절차: 51123 Remote Workspace Operations

2. 인덱싱 실행

3. 검색 검증

  • 단계별 대표 질문셋으로 하이브리드 검색(벡터+키워드+그래프) 적중을 확인한다.
  • 검색 절차: RAG 검색·Grounding 요청

4. Grounding 검증

5. 다음 단계 진입 조건

  • 대표 질문셋 적중률이 이전 단계 수준을 유지하거나 개선돼야 한다.
  • grounding 실패율이 증가하면 원인 분석 후 다음 단계를 보류한다.
  • 인덱싱 오류(텍스트 추출 실패, 임베딩 실패)가 전체 대상의 5%를 넘으면 원인을 해소한 뒤 재실행한다.

실패 분기

  • NAS 마운트 불가 시 대상 선정 단계에서 중단한다.
  • 인덱싱 배치 중 부분 실패는 실패 파일 목록을 남기고, 성공분만으로 검증을 진행한다.
  • 검증 품질이 이전 단계보다 떨어지면 다음 단계로 넘어가지 않는다.

0단계 (200개) 검증 결과

1단계 (2,000개) 실행 결과 (260322)

항목
completed 2,369 (기존 200 + 신규 ~1,635 + 재처리 38 + 기타)
failed 136
전체 청크 19,991

검색 품질 상태 (260323 기준)

  • hybrid 검색: 17/17 통과 (벡터가 보완)
  • keyword 단독 검색: pg_trgm 설치 + tsvector→trgm 자동 보완으로 전 질의 결과 반환 (260323 해소)
  • 해소 이슈: keyword 단독 검색 전질의 0건 (닫힘)
  • LLM 모델: gpt-5.4-mini로 전환 (260323), 5/5 PASS

2단계 진입 조건

  • keyword 단독 검색 품질이 미해결 → pg_trgm으로 해소 (260323)
  • hybrid + keyword 모두 동작 확인, 2단계 진입 가능

관련 문서