DOCS/journey/ideas/260312_companyx_내부문서_rag_응답_아이디어.md
2026-03-12 21:22:05 +09:00

6.7 KiB

tags: [robeing, companyx, rag, ideas, knowledge-grounding]

Company X 내부 문서 RAG 응답 아이디어

배경

  • 로빙은 이미 skill-rag-file을 통해 문서를 텍스트로 처리하고 검색할 수 있지만, Company X 내부 NAS 문서를 Company X 업무 근거로 안정적으로 활용하는 사용자 경험은 아직 고정되지 않았습니다.
  • Company X 관련 질문은 일반 웹 지식이 아니라 내부 파일의 실제 내용과 표현을 근거로 답해야 가치가 생깁니다.
  • 이번 아이디어는 "Company X 소속 사용자 질문에는 Company X 내부 문서를 우선 근거로 삼아 답하는 로빙" 방향을 열어두기 위한 문서입니다.

핵심 아이디어

1. Company X 내부 문서를 별도 지식 원천으로 다룬다

  • 내부 NAS에 있는 Company X 파일을 로빙이 읽기 쉬운 텍스트 단위로 정리합니다.
  • 이 데이터는 일반 사용자 업로드 문서와 섞지 않고, Company X 내부 지식이라는 별도 검색 맥락으로 다룹니다.
  • 원본 파일 경로, 문서 제목, 문단/페이지 위치 같은 근거 메타데이터를 함께 남깁니다.
  • 가능하면 원본 직접 청킹과 별도로, 사람이 읽기 쉬운 정제된 RAG 중간 포맷도 운영 후보로 비교합니다.

2. 사용자 소속에 따라 답변 근거 우선순위를 다르게 둔다

  • Company X 소속 사용자라면 관련 질문에 대해 내부 문서를 우선 검색합니다.
  • 내부 문서에 근거가 있으면 일반 웹 정보보다 내부 문서를 우선 인용합니다.
  • 근거가 약하거나 없으면 모른다고 말하고, 어떤 내부 근거가 부족한지 드러냅니다.

3. 답변은 결론보다 근거를 먼저 보이게 한다

  • 로빙은 단순 요약이 아니라, "어떤 문서의 어떤 내용 때문에 이렇게 답하는지"를 함께 보여줘야 합니다.
  • 따라서 답변 구조는 질문에 대한 직접 답변 + 근거 문서/문단 + 필요한 경우 후속 확인 제안 형태가 적합합니다.

적용 범위 초안

  • 1차 범위는 Company X 내부 NAS 문서 중 텍스트 추출이 가능한 문서군입니다.
  • 1차 질문 범위는 프로그램 소개, 운영 사실 확인, 기존 문서 기반 설명, 내부 자료 재정리 요청입니다.
  • 1차 답변 범위는 문서에 있는 사실 설명, 문서 간 표현 비교, 근거 문서 재정리까지로 제한하는 편이 안전합니다.

우선 문서군 가설

  • 1순위: 프로그램 소개서, 운영안, 제안서, 소개 자료
  • 2순위: 보도자료 초안, 대외 설명 문서, 보고용 요약본
  • 3순위: 실적 집계표, 운영 로그, 개별 계약/투자 관련 문서
  • 이유는 1순위 문서가 질문 빈도, 설명 적합성, 근거 노출 안정성 면에서 가장 먼저 가치가 크기 때문입니다.

비목표 초안

  • 문서에 없는 최신 수치를 추정해서 답하는 기능은 이번 범위가 아닙니다.
  • 권한이 불분명한 사용자에게 내부 문서를 근거로 답하는 기능은 이번 범위가 아닙니다.
  • 내부 문서 원문 전체를 장문으로 그대로 재생산하는 기능은 이번 범위가 아닙니다.

권한 가설

  • 최소 기준은 Company X 소속으로 확인된 사용자만 Company X 내부 지식 검색 경로를 사용한다입니다.
  • 같은 질문이라도 비소속 사용자에게는 내부 문서 기반 답변을 하지 않거나, 공개 가능한 범위만 분리해 답해야 합니다.
  • 따라서 이 아이디어는 RAG 품질 문제이면서 동시에 권한 경계 문제입니다.

문서 충돌 처리 가설

  • 같은 주제의 문서가 여러 개면 최신 문서를 무조건 우선하지 않고 공식성 -> 승인 상태 -> 최신성 순서로 우선 판단하는 편이 안전합니다.
  • 소개 문서와 초안 문서가 충돌하면 초안보다 공식 소개 문서를 우선합니다.
  • 숫자나 상태값이 충돌하면 단정 답변보다 문서 간 불일치 자체를 먼저 드러내야 합니다.

기대 효과

  • Company X 구성원은 로빙을 일반 챗봇이 아니라 내부 문서 기반 업무 보조자로 인식할 수 있습니다.
  • 같은 질문에 대해 추측성 답변보다 실제 파일 근거가 먼저 나오므로 신뢰도가 높아집니다.
  • 이후 계획 단계에서 권한, 문서 정제 방식, 근거 노출 형식, 색인 범위를 더 구체적으로 좁힐 수 있습니다.

왜 아직 아이디어 단계인가

  • 어떤 파일 형식을 우선 색인할지 아직 고정되지 않았습니다.
  • Company X 소속 판별 기준과 권한 경계가 아직 제품 규칙으로 정해지지 않았습니다.
  • 내부 문서를 그대로 청킹할지, 사람이 읽기 쉬운 중간 RAG 포맷으로 먼저 변환할지 아직 결정되지 않았습니다.
  • 답변에 어느 수준까지 근거를 노출할지, 원문 인용 범위를 어떻게 제한할지도 미확정입니다.

성공 판단 기준 초안

  • Company X 소속 사용자의 대표 질문 세트에 대해, 답변마다 근거 문서명이 함께 제시됩니다.
  • 문서에 없는 값은 추정하지 않고 근거 없음 또는 문서 불일치로 응답합니다.
  • 같은 질문을 다시 했을 때 근거 문서 선택과 답변 형식이 크게 흔들리지 않습니다.
  • 사용자가 후속으로 근거 문서만 다시 정리해줘를 요청하면 이전 근거를 재구성할 수 있습니다.

검증이 필요한 질문

  1. Company X 내부 문서 중 실제 질문 빈도가 높은 문서군은 무엇인가
  2. RAG 입력은 원본 파일 직접 청킹과 중간 정제 포맷 중 무엇이 더 안정적인가
  3. Company X 소속 사용자 식별은 어떤 인증/권한 신호로 고정할 것인가
  4. 답변 근거를 문서 경로, 제목, 문단 수준 중 어디까지 보여주는 것이 적절한가
  5. 문서 원문 인용 허용 범위와 요약 중심 노출 기준은 어떻게 나눌 것인가
  6. 문서가 서로 충돌할 때 최신성, 공식성, 승인 상태 중 무엇을 우선할 것인가
  7. 어떤 질문 유형부터 정답률보다 근거 일관성을 먼저 검증해야 하는가

다음 단계 후보

  1. 실제 Company X 파일 유형을 분류하는 research
  2. 기대 사용자 질문과 바람직한 답변 흐름을 적는 scenarios
  3. 권한 경계와 검색 우선순위를 고정하는 plans
  4. 실제 질문 세트로 현재 답변과 기대 답변을 비교하는 소규모 검증

관련 문서