tags: [workflow, rag, companyx, indexing, batch, incremental] # Company X 단계별 증분 인덱싱 워크플로우 ## 목적 - NAS 원본 문서에서 대상을 선정하고, 단계별로 인덱싱을 확장하며, 각 단계마다 검색·grounding 품질을 검증한 뒤 다음 단계로 진입하는 상위 실행 흐름을 고정한다. ## 상위 원칙 - [RAG Workflow Index](./README.md) - [writing-principles.md](../../../../0_VALUE/02_Governance/writing-principles.md) ## 단계 정의 | 단계 | 대상 수 | mtime 컷오프 | 상태 | |------|--------:|--------------|------| | 0단계 | 200 | 수동 선정 (`latest_200_companyx.txt`) | 완료 | | 1단계 | 2,000 | `2026-01-28` 이후 | 미착수 | | 2단계 | 5,000 | `2025-11-30` 이후 | 미착수 | - mtime 컷오프 근거: [NAS 정보 종합 리서치](../../../../infra/DOCS/journey/research/260321_companyx_nas_정보_종합_리서치.md) ## 실행 순서 각 단계는 아래 순서를 반복한다. ### 1. 대상 선정 - NAS 원본 경로(`/mnt/nas/workspace/6.Company X`)에서 mtime 기준으로 대상 파일 목록을 생성한다. - 이전 단계에서 이미 인덱싱된 파일은 제외한다 (증분). - NAS 접속 절차: [51123 Remote Workspace Operations](../../../../infra/DOCS/workflow/51123_remote_workspace_operations_workflow.md) ### 2. 인덱싱 실행 - 대상 파일을 배치 스크립트로 업로드·인덱싱한다. - 단위 절차: [RAG 업로드·인덱싱 파이프라인](./rag_upload_indexing_pipeline.md) ### 3. 검색 검증 - 단계별 대표 질문셋으로 하이브리드 검색(벡터+키워드+그래프) 적중을 확인한다. - 검색 절차: [RAG 검색·Grounding 요청](./rag_search_grounding_request.md) ### 4. Grounding 검증 - 대표 질문셋으로 근거 답변 품질을 확인한다. - Grounding 절차: [Company X Grounding 파이프라인](./companyx_grounding_pipeline.md) ### 5. 다음 단계 진입 조건 - 대표 질문셋 적중률이 이전 단계 수준을 유지하거나 개선돼야 한다. - grounding 실패율이 증가하면 원인 분석 후 다음 단계를 보류한다. - 인덱싱 오류(텍스트 추출 실패, 임베딩 실패)가 전체 대상의 5%를 넘으면 원인을 해소한 뒤 재실행한다. ## 실패 분기 - NAS 마운트 불가 시 대상 선정 단계에서 중단한다. - 인덱싱 배치 중 부분 실패는 실패 파일 목록을 남기고, 성공분만으로 검증을 진행한다. - 검증 품질이 이전 단계보다 떨어지면 다음 단계로 넘어가지 않는다. ## 0단계 (200개) 검증 결과 - 16개 대표 질문 전수 PASS (260321) - grounding 11/18 성공 - 상세: [로빙 다형식문서 RAG 적용 1차 계획](../../journey/plans/260320_로빙_다형식문서_RAG_적용1_계획.md) ## 관련 문서 - [RAG 업로드·인덱싱 파이프라인](./rag_upload_indexing_pipeline.md) - [RAG 검색·Grounding 요청](./rag_search_grounding_request.md) - [Company X Grounding 파이프라인](./companyx_grounding_pipeline.md) - [NAS 정보 종합 리서치](../../../../infra/DOCS/journey/research/260321_companyx_nas_정보_종합_리서치.md) - [하이브리드검색 품질개선 계획](../../journey/plans/260321_하이브리드검색_품질개선_계획.md)