- SKILL.md: 384d → Gemini Embedding 2 / 768d 전환 반영, PostgreSQL 저장 경로, NAS 원본 경로 추가 - 트러블슈팅: 존재하지 않는 worklog 참조 제거, 실제 코드 검토 기반 종결 근거로 교체, 잔여 조건 명시 - 시나리오: 상태를 구현완료_검증대기로 갱신, 구현 반영 상태 추가, 닫힘까지 남은 작업 4건 구체화 - 리서치: Unresolved 6건 중 확정 3건 닫기(임베딩 차원, 적합도 판정, 수치형 판정), 미확정 3건만 잔류 - 계획: Phase 0을 표 형식으로 현행화(확정/인지/미완료 구분), Phase 5 자동화+수동 검증 구체화 - 아이디어: 후속 진행 상태 및 임베딩 전환 확정 사항 추가 Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>
7.0 KiB
7.0 KiB
tags: [robeing, companyx, rag, ideas, knowledge-grounding]
Company X 내부 문서 RAG 응답 아이디어
상태: 종결
종결 문서: Company X 내부문서 RAG 근거응답 1차 구현 및 부분 검증
후속 진행: 시나리오/트러블 동시종결 문제 세트로 확장됨. 임베딩은 Gemini Embedding 2 / 768d로 전환 확정.
배경
- 로빙은 이미
skill-rag-file을 통해 문서를 텍스트로 처리하고 검색할 수 있지만, Company X 내부 NAS 문서를Company X 업무 근거로 안정적으로 활용하는 사용자 경험은 아직 고정되지 않았습니다. - Company X 관련 질문은 일반 웹 지식이 아니라 내부 파일의 실제 내용과 표현을 근거로 답해야 가치가 생깁니다.
- 이번 아이디어는 "Company X 소속 사용자 질문에는 Company X 내부 문서를 우선 근거로 삼아 답하는 로빙" 방향을 열어두기 위한 문서입니다.
핵심 아이디어
1. Company X 내부 문서를 별도 지식 원천으로 다룬다
- 내부 NAS에 있는 Company X 파일을 로빙이 읽기 쉬운 텍스트 단위로 정리합니다.
- 이 데이터는 일반 사용자 업로드 문서와 섞지 않고,
Company X 내부 지식이라는 별도 검색 맥락으로 다룹니다. - 원본 파일 경로, 문서 제목, 문단/페이지 위치 같은 근거 메타데이터를 함께 남깁니다.
- 가능하면 원본 직접 청킹과 별도로, 사람이 읽기 쉬운
정제된 RAG 중간 포맷도 운영 후보로 비교합니다.
2. 사용자 소속에 따라 답변 근거 우선순위를 다르게 둔다
- Company X 소속 사용자라면 관련 질문에 대해 내부 문서를 우선 검색합니다.
- 내부 문서에 근거가 있으면 일반 웹 정보보다 내부 문서를 우선 인용합니다.
- 근거가 약하거나 없으면 모른다고 말하고, 어떤 내부 근거가 부족한지 드러냅니다.
3. 답변은 결론보다 근거를 먼저 보이게 한다
- 로빙은 단순 요약이 아니라, "어떤 문서의 어떤 내용 때문에 이렇게 답하는지"를 함께 보여줘야 합니다.
- 따라서 답변 구조는
질문에 대한 직접 답변 + 근거 문서/문단 + 필요한 경우 후속 확인 제안형태가 적합합니다.
적용 범위 초안
- 1차 범위는 Company X 내부 NAS 문서 중 텍스트 추출이 가능한 문서군입니다.
- 1차 질문 범위는 프로그램 소개, 운영 사실 확인, 기존 문서 기반 설명, 내부 자료 재정리 요청입니다.
- 1차 답변 범위는
문서에 있는 사실 설명,문서 간 표현 비교,근거 문서 재정리까지로 제한하는 편이 안전합니다.
우선 문서군 가설
- 1순위: 프로그램 소개서, 운영안, 제안서, 소개 자료
- 2순위: 보도자료 초안, 대외 설명 문서, 보고용 요약본
- 3순위: 실적 집계표, 운영 로그, 개별 계약/투자 관련 문서
- 이유는 1순위 문서가
질문 빈도,설명 적합성,근거 노출 안정성면에서 가장 먼저 가치가 크기 때문입니다.
비목표 초안
- 문서에 없는 최신 수치를 추정해서 답하는 기능은 이번 범위가 아닙니다.
- 권한이 불분명한 사용자에게 내부 문서를 근거로 답하는 기능은 이번 범위가 아닙니다.
- 내부 문서 원문 전체를 장문으로 그대로 재생산하는 기능은 이번 범위가 아닙니다.
권한 가설
- 최소 기준은
Company X 소속으로 확인된 사용자만 Company X 내부 지식 검색 경로를 사용한다입니다. - 같은 질문이라도 비소속 사용자에게는 내부 문서 기반 답변을 하지 않거나, 공개 가능한 범위만 분리해 답해야 합니다.
- 따라서 이 아이디어는 RAG 품질 문제이면서 동시에 권한 경계 문제입니다.
문서 충돌 처리 가설
- 같은 주제의 문서가 여러 개면 최신 문서를 무조건 우선하지 않고
공식성 -> 승인 상태 -> 최신성순서로 우선 판단하는 편이 안전합니다. - 소개 문서와 초안 문서가 충돌하면 초안보다 공식 소개 문서를 우선합니다.
- 숫자나 상태값이 충돌하면 단정 답변보다
문서 간 불일치자체를 먼저 드러내야 합니다.
기대 효과
- Company X 구성원은 로빙을 일반 챗봇이 아니라 내부 문서 기반 업무 보조자로 인식할 수 있습니다.
- 같은 질문에 대해 추측성 답변보다 실제 파일 근거가 먼저 나오므로 신뢰도가 높아집니다.
- 이후 계획 단계에서
권한,문서 정제 방식,근거 노출 형식,색인 범위를 더 구체적으로 좁힐 수 있습니다.
왜 아직 아이디어 단계인가
- 어떤 파일 형식을 우선 색인할지 아직 고정되지 않았습니다.
- Company X 소속 판별 기준과 권한 경계가 아직 제품 규칙으로 정해지지 않았습니다.
- 내부 문서를 그대로 청킹할지, 사람이 읽기 쉬운 중간 RAG 포맷으로 먼저 변환할지 아직 결정되지 않았습니다.
- 답변에 어느 수준까지 근거를 노출할지, 원문 인용 범위를 어떻게 제한할지도 미확정입니다.
성공 판단 기준 초안
- Company X 소속 사용자의 대표 질문 세트에 대해, 답변마다 근거 문서명이 함께 제시됩니다.
- 문서에 없는 값은 추정하지 않고
근거 없음또는문서 불일치로 응답합니다. - 같은 질문을 다시 했을 때 근거 문서 선택과 답변 형식이 크게 흔들리지 않습니다.
- 사용자가 후속으로
근거 문서만 다시 정리해줘를 요청하면 이전 근거를 재구성할 수 있습니다.
검증이 필요한 질문
- Company X 내부 문서 중 실제 질문 빈도가 높은 문서군은 무엇인가
- RAG 입력은 원본 파일 직접 청킹과 중간 정제 포맷 중 무엇이 더 안정적인가
- Company X 소속 사용자 식별은 어떤 인증/권한 신호로 고정할 것인가
- 답변 근거를 문서 경로, 제목, 문단 수준 중 어디까지 보여주는 것이 적절한가
- 문서 원문 인용 허용 범위와 요약 중심 노출 기준은 어떻게 나눌 것인가
- 문서가 서로 충돌할 때 최신성, 공식성, 승인 상태 중 무엇을 우선할 것인가
- 어떤 질문 유형부터
정답률보다근거 일관성을 먼저 검증해야 하는가
다음 단계 후보
- 실제 Company X 파일 유형을 분류하는
research - 기대 사용자 질문과 바람직한 답변 흐름을 적는
scenarios - 권한 경계와 검색 우선순위를 고정하는
plans - 실제 질문 세트로 현재 답변과 기대 답변을 비교하는 소규모 검증