SSOT는 로컬 0_VALUE/. GitHub URL은 복사본 참조로 SSOT 원칙 위반. 02_Governance는 존재하지 않는 구 경로로 전부 깨진 링크. Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>
4.7 KiB
4.7 KiB
tags: [workflow, rag, companyx, indexing, batch, incremental]
Company X 단계별 증분 인덱싱 워크플로우
목적
- NAS 원본 문서에서 대상을 선정하고, 단계별로 인덱싱을 확장하며, 각 단계마다 검색·grounding 품질을 검증한 뒤 다음 단계로 진입하는 상위 실행 흐름을 고정한다.
상위 원칙
단계 정의
| 단계 | 대상 수 | mtime 컷오프 | 상태 |
|---|---|---|---|
| 0단계 | 200 | 수동 선정 (latest_200_companyx.txt) |
완료 |
| 1단계 | 2,000 | 2026-01-28 이후 |
완료 (260322) |
| 2단계 | 5,000 | 2025-11-30 이후 |
미착수 |
- mtime 컷오프 근거: NAS 정보 종합 리서치
실행 순서
각 단계는 아래 순서를 반복한다.
1. 대상 선정
- NAS 원본 경로(
/mnt/nas/workspace/6.Company X)에서 mtime 기준으로 대상 파일 목록을 생성한다. - 이전 단계에서 이미 인덱싱된 파일은 제외한다 (증분).
- NAS 접속 절차: 51123 Remote Workspace Operations
2. 인덱싱 실행
- 대상 파일을 배치 스크립트로 업로드·인덱싱한다.
- 단위 절차: RAG 업로드·인덱싱 파이프라인
3. 검색 검증
- 단계별 대표 질문셋으로 하이브리드 검색(벡터+키워드+그래프) 적중을 확인한다.
- 검색 절차: RAG 검색·Grounding 요청
4. Grounding 검증
- 대표 질문셋으로 근거 답변 품질을 확인한다.
- Grounding 절차: Company X Grounding 파이프라인
5. 다음 단계 진입 조건
- 대표 질문셋 적중률이 이전 단계 수준을 유지하거나 개선돼야 한다.
- grounding 실패율이 증가하면 원인 분석 후 다음 단계를 보류한다.
- 인덱싱 오류(텍스트 추출 실패, 임베딩 실패)가 전체 대상의 5%를 넘으면 원인을 해소한 뒤 재실행한다.
실패 분기
- NAS 마운트 불가 시 대상 선정 단계에서 중단한다.
- 인덱싱 배치 중 부분 실패는 실패 파일 목록을 남기고, 성공분만으로 검증을 진행한다.
- 검증 품질이 이전 단계보다 떨어지면 다음 단계로 넘어가지 않는다.
0단계 (200개) 검증 결과
- 16개 대표 질문 전수 PASS (260321)
- grounding 11/18 성공
- 상세: 로빙 다형식문서 RAG 적용 1차 계획
1단계 (2,000개) 실행 결과 (260322)
| 항목 | 값 |
|---|---|
| completed | 2,369 (기존 200 + 신규 ~1,635 + 재처리 38 + 기타) |
| failed | 136 |
| 전체 청크 | 19,991 |
- 데이터 품질 수정 완료: file_size/mime 채움, 빈 청크 삭제, 청크 없는 completed 재처리
- 상세: 1단계 2,000개 증분 인덱싱 워크로그
검색 품질 상태 (260323 기준)
- hybrid 검색: 17/17 통과 (벡터가 보완)
- keyword 단독 검색: pg_trgm 설치 + tsvector→trgm 자동 보완으로 전 질의 결과 반환 (260323 해소)
- 해소 이슈: keyword 단독 검색 전질의 0건 (닫힘)
- LLM 모델: gpt-5.4-mini로 전환 (260323), 5/5 PASS
2단계 진입 조건
keyword 단독 검색 품질이 미해결→ pg_trgm으로 해소 (260323)- hybrid + keyword 모두 동작 확인, 2단계 진입 가능