Add vacation-rule failure to Company X scenario
This commit is contained in:
parent
714851827f
commit
12372356b8
@ -98,6 +98,18 @@ tags: [robeing, companyx, rag, scenarios, user-experience]
|
||||
3. 근거 문서가 보이지 않거나, 실제 내부 표현과 다른 내용이 섞입니다.
|
||||
4. 사용자는 다시 파일을 직접 찾아야 하고, 로빙 답변을 신뢰하지 못합니다.
|
||||
|
||||
### 실제 재오픈 사례 A
|
||||
- 질문: `컴퍼니엑스의 투자사는 몇개야?`
|
||||
- 실제 응답: 직접 답 없이 `관련 근거를 찾았습니다`와 무관한 청크만 반환
|
||||
- 기대와의 차이: 수치형 질문인데 개수를 말하지 못했고, 질문 적합 근거 선별도 실패
|
||||
|
||||
### 실제 재오픈 사례 B
|
||||
- 질문: `그럼 컴퍼니엑스 내부 규정 상 휴가는 얼마나 쓸 수 있어?`
|
||||
- 실제 응답: 휴가 규정과 무관한 `companyx_todaytradition.pdf` 청크만 반환
|
||||
- 사용자 반응: `아직 완벽하지 않네.`
|
||||
- 후속 로빙 응답: `어떤 부분이 더 필요하신지 구체적으로 알려주시면 감사하겠습니다.`
|
||||
- 기대와의 차이: 근거 없음 또는 문서 미확인으로 답해야 했는데, 무관한 청크를 준 뒤 다시 메타 대화로 빠졌습니다.
|
||||
|
||||
## 완료 기준 (사용자 기준)
|
||||
- Company X 소속 사용자가 내부 업무 질문에 대해 "문서 근거가 붙은 답변"을 일관되게 받습니다.
|
||||
- 근거가 없는 질문에는 추측 대신 부족한 근거를 명확히 안내합니다.
|
||||
@ -107,6 +119,7 @@ tags: [robeing, companyx, rag, scenarios, user-experience]
|
||||
## 현재 재오픈 이유
|
||||
- 대표 질문 일부는 동작했지만, Slack 실응답 `컴퍼니엑스의 투자사는 몇개야?`에서 기대 형식이 깨졌습니다.
|
||||
- 실제 응답은 직접 답 없이 관련성 낮은 청크만 반환했고, 이는 이 시나리오의 완료 기준을 만족하지 못합니다.
|
||||
- 이어서 Slack 실응답 `그럼 컴퍼니엑스 내부 규정 상 휴가는 얼마나 쓸 수 있어?`에서도 규정 근거가 아닌 무관한 사업계획서 청크를 반환했습니다.
|
||||
- 따라서 현재 상태는 `부분 구현`이며, 시나리오는 다시 열린 것으로 봅니다.
|
||||
|
||||
## 연결 문서
|
||||
|
||||
@ -17,6 +17,11 @@ tags: [robeing, companyx, rag, troubleshooting, answer-quality]
|
||||
- `Company X 내부 문서에서 관련 근거를 찾았습니다.`
|
||||
- 질문에 대한 직접 답이 없음
|
||||
- `투자사 개수` 질문과 직접 관련 없는 청크가 그대로 노출됨
|
||||
- 추가 질문:
|
||||
- `그럼 컴퍼니엑스 내부 규정 상 휴가는 얼마나 쓸 수 있어?`
|
||||
- 추가 실제 응답:
|
||||
- 휴가 규정과 무관한 `companyx_todaytradition.pdf` 청크만 반환
|
||||
- 사용자가 `아직 완벽하지 않네.`라고 하자, 로빙이 근거 보강 대신 `어떤 부분이 더 필요하신지`를 묻는 메타 대화로 빠짐
|
||||
|
||||
## 왜 문제인가
|
||||
- 시나리오 완료 기준은 `직접 답 먼저`, `질문과 맞는 근거만 선별`, `근거 부족 시 모른다고 말하기`입니다.
|
||||
@ -26,12 +31,14 @@ tags: [robeing, companyx, rag, troubleshooting, answer-quality]
|
||||
## 확인된 사실
|
||||
- `오늘전통/옐로펀치` 대표 질문은 근거응답이 가능했습니다.
|
||||
- 하지만 다른 Company X 질의에서는 검색 결과를 그대로 요약 없이 붙이는 회귀가 확인됐습니다.
|
||||
- 규정형 질문처럼 아예 문서군이 다를 가능성이 큰 질의에서도, `근거 없음` 대신 무관한 청크를 억지로 반환했습니다.
|
||||
- 즉 현재 구현은 `질문별 답변 합성 품질`이 안정화되지 않았습니다.
|
||||
|
||||
## 원인 가설
|
||||
1. retrieval 결과를 질문 적합도 기준으로 재정렬/필터링하지 않습니다.
|
||||
2. 수치형 질문과 사실 확인형 질문을 분리하지 않고 같은 응답 포맷으로 처리합니다.
|
||||
3. `직접 답 생성` 전에 `근거 청크 선별`이 충분히 정교하지 않습니다.
|
||||
4. 적절한 근거가 없을 때 `모른다/문서 미확인`로 빠지는 실패 경로가 약합니다.
|
||||
|
||||
## 필요한 조치
|
||||
1. 질문 유형별 응답 규칙 분기
|
||||
@ -41,6 +48,7 @@ tags: [robeing, companyx, rag, troubleshooting, answer-quality]
|
||||
2. retrieval 결과의 질문 적합도 재평가
|
||||
3. `직접 답`이 없으면 근거 목록만 반환하지 않도록 가드 추가
|
||||
4. Slack 실응답 기준으로 시나리오 질문셋 재검증
|
||||
5. 근거 부족 시 메타 대화가 아니라 `문서 없음 또는 미확인`으로 답하는 실패 경로 고정
|
||||
|
||||
## 상태
|
||||
- 열림
|
||||
|
||||
Loading…
x
Reference in New Issue
Block a user