docs: refine Company X RAG docs

This commit is contained in:
Claude-51124 2026-03-12 21:20:06 +09:00
parent 984307f882
commit ffda0e3170
2 changed files with 41 additions and 0 deletions

View File

@ -13,6 +13,7 @@ tags: [robeing, companyx, rag, ideas, knowledge-grounding]
- 내부 NAS에 있는 Company X 파일을 로빙이 읽기 쉬운 텍스트 단위로 정리합니다. - 내부 NAS에 있는 Company X 파일을 로빙이 읽기 쉬운 텍스트 단위로 정리합니다.
- 이 데이터는 일반 사용자 업로드 문서와 섞지 않고, `Company X 내부 지식`이라는 별도 검색 맥락으로 다룹니다. - 이 데이터는 일반 사용자 업로드 문서와 섞지 않고, `Company X 내부 지식`이라는 별도 검색 맥락으로 다룹니다.
- 원본 파일 경로, 문서 제목, 문단/페이지 위치 같은 근거 메타데이터를 함께 남깁니다. - 원본 파일 경로, 문서 제목, 문단/페이지 위치 같은 근거 메타데이터를 함께 남깁니다.
- 가능하면 원본 직접 청킹과 별도로, 사람이 읽기 쉬운 `정제된 RAG 중간 포맷`도 운영 후보로 비교합니다.
### 2. 사용자 소속에 따라 답변 근거 우선순위를 다르게 둔다 ### 2. 사용자 소속에 따라 답변 근거 우선순위를 다르게 둔다
- Company X 소속 사용자라면 관련 질문에 대해 내부 문서를 우선 검색합니다. - Company X 소속 사용자라면 관련 질문에 대해 내부 문서를 우선 검색합니다.
@ -23,6 +24,21 @@ tags: [robeing, companyx, rag, ideas, knowledge-grounding]
- 로빙은 단순 요약이 아니라, "어떤 문서의 어떤 내용 때문에 이렇게 답하는지"를 함께 보여줘야 합니다. - 로빙은 단순 요약이 아니라, "어떤 문서의 어떤 내용 때문에 이렇게 답하는지"를 함께 보여줘야 합니다.
- 따라서 답변 구조는 `질문에 대한 직접 답변 + 근거 문서/문단 + 필요한 경우 후속 확인 제안` 형태가 적합합니다. - 따라서 답변 구조는 `질문에 대한 직접 답변 + 근거 문서/문단 + 필요한 경우 후속 확인 제안` 형태가 적합합니다.
## 적용 범위 초안
- 1차 범위는 Company X 내부 NAS 문서 중 텍스트 추출이 가능한 문서군입니다.
- 1차 질문 범위는 프로그램 소개, 운영 사실 확인, 기존 문서 기반 설명, 내부 자료 재정리 요청입니다.
- 1차 답변 범위는 `문서에 있는 사실 설명`, `문서 간 표현 비교`, `근거 문서 재정리`까지로 제한하는 편이 안전합니다.
## 비목표 초안
- 문서에 없는 최신 수치를 추정해서 답하는 기능은 이번 범위가 아닙니다.
- 권한이 불분명한 사용자에게 내부 문서를 근거로 답하는 기능은 이번 범위가 아닙니다.
- 내부 문서 원문 전체를 장문으로 그대로 재생산하는 기능은 이번 범위가 아닙니다.
## 권한 가설
- 최소 기준은 `Company X 소속으로 확인된 사용자만 Company X 내부 지식 검색 경로를 사용한다`입니다.
- 같은 질문이라도 비소속 사용자에게는 내부 문서 기반 답변을 하지 않거나, 공개 가능한 범위만 분리해 답해야 합니다.
- 따라서 이 아이디어는 RAG 품질 문제이면서 동시에 권한 경계 문제입니다.
## 기대 효과 ## 기대 효과
- Company X 구성원은 로빙을 일반 챗봇이 아니라 내부 문서 기반 업무 보조자로 인식할 수 있습니다. - Company X 구성원은 로빙을 일반 챗봇이 아니라 내부 문서 기반 업무 보조자로 인식할 수 있습니다.
- 같은 질문에 대해 추측성 답변보다 실제 파일 근거가 먼저 나오므로 신뢰도가 높아집니다. - 같은 질문에 대해 추측성 답변보다 실제 파일 근거가 먼저 나오므로 신뢰도가 높아집니다.
@ -39,11 +55,14 @@ tags: [robeing, companyx, rag, ideas, knowledge-grounding]
2. RAG 입력은 원본 파일 직접 청킹과 중간 정제 포맷 중 무엇이 더 안정적인가 2. RAG 입력은 원본 파일 직접 청킹과 중간 정제 포맷 중 무엇이 더 안정적인가
3. Company X 소속 사용자 식별은 어떤 인증/권한 신호로 고정할 것인가 3. Company X 소속 사용자 식별은 어떤 인증/권한 신호로 고정할 것인가
4. 답변 근거를 문서 경로, 제목, 문단 수준 중 어디까지 보여주는 것이 적절한가 4. 답변 근거를 문서 경로, 제목, 문단 수준 중 어디까지 보여주는 것이 적절한가
5. 문서 원문 인용 허용 범위와 요약 중심 노출 기준은 어떻게 나눌 것인가
6. 문서가 서로 충돌할 때 최신성, 공식성, 승인 상태 중 무엇을 우선할 것인가
## 다음 단계 후보 ## 다음 단계 후보
1. 실제 Company X 파일 유형을 분류하는 `research` 1. 실제 Company X 파일 유형을 분류하는 `research`
2. 기대 사용자 질문과 바람직한 답변 흐름을 적는 `scenarios` 2. 기대 사용자 질문과 바람직한 답변 흐름을 적는 `scenarios`
3. 권한 경계와 검색 우선순위를 고정하는 `plans` 3. 권한 경계와 검색 우선순위를 고정하는 `plans`
4. 실제 질문 세트로 현재 답변과 기대 답변을 비교하는 소규모 검증
## 관련 문서 ## 관련 문서
- [컴퍼니엑스(Company X) 개요](../../book/500_business/560_컴퍼니엑스_개요.md) - [컴퍼니엑스(Company X) 개요](../../book/500_business/560_컴퍼니엑스_개요.md)

View File

@ -22,6 +22,10 @@ tags: [robeing, companyx, rag, scenarios, user-experience]
2. 로빙은 Company X 내부 문서에서 `X-COURSE` 관련 소개서, 운영 문서, 제안서 등을 먼저 찾습니다. 2. 로빙은 Company X 내부 문서에서 `X-COURSE` 관련 소개서, 운영 문서, 제안서 등을 먼저 찾습니다.
3. 로빙은 핵심 설명을 짧게 답한 뒤, 어떤 문서를 근거로 썼는지 함께 보여줍니다. 3. 로빙은 핵심 설명을 짧게 답한 뒤, 어떤 문서를 근거로 썼는지 함께 보여줍니다.
### 현재 답변 예시
> X-COURSE는 Company X의 프로그램으로 보입니다.
> 스타트업 지원이나 액셀러레이팅과 관련된 것 같습니다.
### 바람직한 답변 예시 ### 바람직한 답변 예시
> X-COURSE는 Company X가 운영하는 액셀러레이팅 프로그램으로 보입니다. > X-COURSE는 Company X가 운영하는 액셀러레이팅 프로그램으로 보입니다.
> 내부 문서 기준으로는 투자 연계, 스타트업 육성, 프로그램 운영 흐름이 반복적으로 언급됩니다. > 내부 문서 기준으로는 투자 연계, 스타트업 육성, 프로그램 운영 흐름이 반복적으로 언급됩니다.
@ -32,6 +36,10 @@ tags: [robeing, companyx, rag, scenarios, user-experience]
2. 로빙은 관련 제안서, 소개 문서, 보도자료 초안 등에서 공동 운영 표현을 검색합니다. 2. 로빙은 관련 제안서, 소개 문서, 보도자료 초안 등에서 공동 운영 표현을 검색합니다.
3. 근거가 있으면 문서 위치를 붙여 답하고, 없으면 없다고 답합니다. 3. 근거가 있으면 문서 위치를 붙여 답하고, 없으면 없다고 답합니다.
### 현재 답변 예시
> 제가 아는 범위에서는 Company X가 옐로펀치와 함께 운영하는 것으로 알고 있습니다.
> 정확한 근거 문서는 바로 제시하기 어렵습니다.
### 바람직한 답변 예시 ### 바람직한 답변 예시
> 확인된 내부 문서 기준으로는 Company X가 옐로펀치와 공동 운영한다고 적힌 자료가 있습니다. > 확인된 내부 문서 기준으로는 Company X가 옐로펀치와 공동 운영한다고 적힌 자료가 있습니다.
> 다만 문서마다 표현이 `공동 운영`, `협력 운영`으로 조금 다를 수 있습니다. > 다만 문서마다 표현이 `공동 운영`, `협력 운영`으로 조금 다를 수 있습니다.
@ -42,6 +50,10 @@ tags: [robeing, companyx, rag, scenarios, user-experience]
2. 로빙이 검색했지만 최신 월간 실적 문서나 집계표가 없거나, 값이 서로 다릅니다. 2. 로빙이 검색했지만 최신 월간 실적 문서나 집계표가 없거나, 값이 서로 다릅니다.
3. 로빙은 추정하지 않고 현재 확보된 근거 범위를 설명합니다. 3. 로빙은 추정하지 않고 현재 확보된 근거 범위를 설명합니다.
### 현재 답변 예시
> 이번 달 확정 투자 건수는 몇 건으로 보입니다.
> 정확하지 않을 수 있지만 대략 그 정도입니다.
### 바람직한 답변 예시 ### 바람직한 답변 예시
> 현재 제가 확인한 Company X 내부 문서만으로는 이번 달 확정 투자 건수를 단정할 수 없습니다. > 현재 제가 확인한 Company X 내부 문서만으로는 이번 달 확정 투자 건수를 단정할 수 없습니다.
> 찾은 자료는 과거 보고서와 개별 투자 문서이고, 이번 달 집계표는 아직 보이지 않습니다. > 찾은 자료는 과거 보고서와 개별 투자 문서이고, 이번 달 집계표는 아직 보이지 않습니다.
@ -52,12 +64,22 @@ tags: [robeing, companyx, rag, scenarios, user-experience]
2. 로빙은 이전 답변에서 사용한 문서 근거를 다시 짧게 정리합니다. 2. 로빙은 이전 답변에서 사용한 문서 근거를 다시 짧게 정리합니다.
3. 사용자는 파일을 다시 뒤지지 않고 바로 전달 자료를 만들 수 있습니다. 3. 사용자는 파일을 다시 뒤지지 않고 바로 전달 자료를 만들 수 있습니다.
### 현재 답변 예시
> 아까 답변을 참고해주세요.
> 관련 문서는 여러 개였는데 정확한 이름은 다시 찾아봐야 합니다.
### 바람직한 답변 예시 ### 바람직한 답변 예시
> 이번 답변에 사용한 내부 근거 문서는 아래와 같습니다. > 이번 답변에 사용한 내부 근거 문서는 아래와 같습니다.
> 1. `문서명 A` - 프로그램 개요 > 1. `문서명 A` - 프로그램 개요
> 2. `문서명 B` - 공동 운영 표현 확인 > 2. `문서명 B` - 공동 운영 표현 확인
> 3. `문서명 C` - 운영 대상/목적 확인 > 3. `문서명 C` - 운영 대상/목적 확인
## 답변 형식 기대
- 첫 문장에서 질문에 대한 직접 답을 짧게 말합니다.
- 둘째 부분에서 근거 문서명, 문단 요지, 위치 정보를 붙입니다.
- 근거가 부족하면 추정 대신 부족한 이유와 다음 확인 대상을 말합니다.
- 사용자가 재사용할 수 있게 근거 문서 목록을 다시 뽑아줄 수 있어야 합니다.
## 실패 장면 ## 실패 장면
1. 사용자가 내부 자료 기준 답변을 기대하고 질문합니다. 1. 사용자가 내부 자료 기준 답변을 기대하고 질문합니다.
2. 로빙이 내부 문서 대신 일반 웹 정보나 추측으로 먼저 답합니다. 2. 로빙이 내부 문서 대신 일반 웹 정보나 추측으로 먼저 답합니다.