DOCS/journey/ideas/260312_companyx_내부문서_rag_응답_아이디어.md
2026-03-12 21:20:06 +09:00

5.3 KiB

tags: [robeing, companyx, rag, ideas, knowledge-grounding]

Company X 내부 문서 RAG 응답 아이디어

배경

  • 로빙은 이미 skill-rag-file을 통해 문서를 텍스트로 처리하고 검색할 수 있지만, Company X 내부 NAS 문서를 Company X 업무 근거로 안정적으로 활용하는 사용자 경험은 아직 고정되지 않았습니다.
  • Company X 관련 질문은 일반 웹 지식이 아니라 내부 파일의 실제 내용과 표현을 근거로 답해야 가치가 생깁니다.
  • 이번 아이디어는 "Company X 소속 사용자 질문에는 Company X 내부 문서를 우선 근거로 삼아 답하는 로빙" 방향을 열어두기 위한 문서입니다.

핵심 아이디어

1. Company X 내부 문서를 별도 지식 원천으로 다룬다

  • 내부 NAS에 있는 Company X 파일을 로빙이 읽기 쉬운 텍스트 단위로 정리합니다.
  • 이 데이터는 일반 사용자 업로드 문서와 섞지 않고, Company X 내부 지식이라는 별도 검색 맥락으로 다룹니다.
  • 원본 파일 경로, 문서 제목, 문단/페이지 위치 같은 근거 메타데이터를 함께 남깁니다.
  • 가능하면 원본 직접 청킹과 별도로, 사람이 읽기 쉬운 정제된 RAG 중간 포맷도 운영 후보로 비교합니다.

2. 사용자 소속에 따라 답변 근거 우선순위를 다르게 둔다

  • Company X 소속 사용자라면 관련 질문에 대해 내부 문서를 우선 검색합니다.
  • 내부 문서에 근거가 있으면 일반 웹 정보보다 내부 문서를 우선 인용합니다.
  • 근거가 약하거나 없으면 모른다고 말하고, 어떤 내부 근거가 부족한지 드러냅니다.

3. 답변은 결론보다 근거를 먼저 보이게 한다

  • 로빙은 단순 요약이 아니라, "어떤 문서의 어떤 내용 때문에 이렇게 답하는지"를 함께 보여줘야 합니다.
  • 따라서 답변 구조는 질문에 대한 직접 답변 + 근거 문서/문단 + 필요한 경우 후속 확인 제안 형태가 적합합니다.

적용 범위 초안

  • 1차 범위는 Company X 내부 NAS 문서 중 텍스트 추출이 가능한 문서군입니다.
  • 1차 질문 범위는 프로그램 소개, 운영 사실 확인, 기존 문서 기반 설명, 내부 자료 재정리 요청입니다.
  • 1차 답변 범위는 문서에 있는 사실 설명, 문서 간 표현 비교, 근거 문서 재정리까지로 제한하는 편이 안전합니다.

비목표 초안

  • 문서에 없는 최신 수치를 추정해서 답하는 기능은 이번 범위가 아닙니다.
  • 권한이 불분명한 사용자에게 내부 문서를 근거로 답하는 기능은 이번 범위가 아닙니다.
  • 내부 문서 원문 전체를 장문으로 그대로 재생산하는 기능은 이번 범위가 아닙니다.

권한 가설

  • 최소 기준은 Company X 소속으로 확인된 사용자만 Company X 내부 지식 검색 경로를 사용한다입니다.
  • 같은 질문이라도 비소속 사용자에게는 내부 문서 기반 답변을 하지 않거나, 공개 가능한 범위만 분리해 답해야 합니다.
  • 따라서 이 아이디어는 RAG 품질 문제이면서 동시에 권한 경계 문제입니다.

기대 효과

  • Company X 구성원은 로빙을 일반 챗봇이 아니라 내부 문서 기반 업무 보조자로 인식할 수 있습니다.
  • 같은 질문에 대해 추측성 답변보다 실제 파일 근거가 먼저 나오므로 신뢰도가 높아집니다.
  • 이후 계획 단계에서 권한, 문서 정제 방식, 근거 노출 형식, 색인 범위를 더 구체적으로 좁힐 수 있습니다.

왜 아직 아이디어 단계인가

  • 어떤 파일 형식을 우선 색인할지 아직 고정되지 않았습니다.
  • Company X 소속 판별 기준과 권한 경계가 아직 제품 규칙으로 정해지지 않았습니다.
  • 내부 문서를 그대로 청킹할지, 사람이 읽기 쉬운 중간 RAG 포맷으로 먼저 변환할지 아직 결정되지 않았습니다.
  • 답변에 어느 수준까지 근거를 노출할지, 원문 인용 범위를 어떻게 제한할지도 미확정입니다.

검증이 필요한 질문

  1. Company X 내부 문서 중 실제 질문 빈도가 높은 문서군은 무엇인가
  2. RAG 입력은 원본 파일 직접 청킹과 중간 정제 포맷 중 무엇이 더 안정적인가
  3. Company X 소속 사용자 식별은 어떤 인증/권한 신호로 고정할 것인가
  4. 답변 근거를 문서 경로, 제목, 문단 수준 중 어디까지 보여주는 것이 적절한가
  5. 문서 원문 인용 허용 범위와 요약 중심 노출 기준은 어떻게 나눌 것인가
  6. 문서가 서로 충돌할 때 최신성, 공식성, 승인 상태 중 무엇을 우선할 것인가

다음 단계 후보

  1. 실제 Company X 파일 유형을 분류하는 research
  2. 기대 사용자 질문과 바람직한 답변 흐름을 적는 scenarios
  3. 권한 경계와 검색 우선순위를 고정하는 plans
  4. 실제 질문 세트로 현재 답변과 기대 답변을 비교하는 소규모 검증

관련 문서