diff --git a/journey/research/260312_companyx_내부문서_rag_근거응답_현황_리서치.md b/journey/research/260312_companyx_내부문서_rag_근거응답_현황_리서치.md index 9921063..295c896 100644 --- a/journey/research/260312_companyx_내부문서_rag_근거응답_현황_리서치.md +++ b/journey/research/260312_companyx_내부문서_rag_근거응답_현황_리서치.md @@ -198,6 +198,57 @@ tags: [robeing, companyx, rag, research, internal-documents, grounding] - 인덱싱 시간, 검색 시간 - 현재 단계에서 가장 중요한 지표는 `정답률`보다 `근거 일관성`과 `상위 검색 적중률`이다 +### 16. 소규모 retrieval 품질 비교 결과, 로컬 384d와 OpenAI 1536d는 현재 표본에서 동률이었다 + +- 비교 조건: + - 문서: `옐로펀치X컴퍼니엑스 MOU` 1건, `오늘전통 사업계획서_컴퍼니엑스` 1건 + - 청킹: `skill-rag-file`과 같은 문자 기반 청킹(`1000`, overlap `200`) + - 총 청크 수: + - `mou`: `3` + - `todaytradition`: `38` + - 질문: `6개` + - 평가 단위: `문서 수준 top1/top3`, `MRR` +- 비교 모델: + - 로컬: `multilingual-MiniLM-L12-v2` `384d` + - OpenAI: `text-embedding-3-small` `1536d` +- 결과 요약: + - 로컬 `384d` + - `Top1 = 4/6` + - `Top3 = 6/6` + - `MRR = 0.8333` + - OpenAI `1536d` + - `Top1 = 4/6` + - `Top3 = 6/6` + - `MRR = 0.8333` +- 즉 이 표본에서는 두 모델이 문서 수준 retrieval 성능에서 사실상 동률이었다. + +### 17. 질문 유형별로는 두 모델의 강점이 조금 다르게 나타났다 + +- 로컬 `384d`가 더 잘 맞힌 질문: + - `오늘전통 사업계획서에서 옐로펀치가 협력기관으로 제시되는 근거` + - 이 질문에서 로컬은 `todaytradition`을 `Top1`로 올렸고, OpenAI는 `mou`를 `Top1`로 올렸다. +- OpenAI `1536d`가 더 잘 맞힌 질문: + - `예비창업자 및 초기 창업기업 대상 지원사업 공동 컨소시엄 협력` + - 이 질문에서 OpenAI는 `mou`를 `Top1`로 올렸고, 로컬은 `todaytradition`을 `Top1`로 올렸다. +- 공통적으로 둘 다 헷갈린 질문: + - `교육 멘토링 세미나 IR 등 기업 육성 프로그램 운영 참여` + - 두 모델 모두 `todaytradition`을 `Top1`로 올리고 `mou`를 `2위`로 두었다. + +### 18. 현재 표본 기준으로는 차원 수가 곧바로 품질 우위를 보장하지 않았다 + +- `1536d` OpenAI 모델이 `384d` 로컬 모델보다 무조건 더 낫다는 결과는 나오지 않았다. +- 현재 표본에서는 두 모델이 같은 점수를 냈고, 질문별로 서로 다른 실수를 보였다. +- 따라서 다음 단계에서 모델 선택은 `차원 수`만으로 결정하면 안 된다. + +### 19. 현재 단계에서 더 필요한 것은 큰 모델 교체보다 질문셋 확대와 문서군 확대다 + +- 지금 비교는 `2문서`, `6질문`의 매우 작은 샘플이다. +- 이 표본만으로 최종 모델 결론을 내리기에는 부족하다. +- 그러나 최소한 아래 두 사실은 확인됐다. + - 로컬 `384d`도 Company X 근거 검색에 충분히 경쟁력 있는 초기 후보다. + - OpenAI `1536d`는 비용이 낮고 품질 비교 가치가 있지만, 현재 표본에서 압도적 우위를 보이지는 않았다. +- 따라서 다음 계획에서는 먼저 `2,000개 쉬운 문서`와 `20~50개 질문셋`으로 비교 범위를 넓히는 것이 맞다. + ## Interpretation ### 1. 아이디어 문서는 유효한 가설이다 @@ -243,6 +294,12 @@ tags: [robeing, companyx, rag, research, internal-documents, grounding] - `1536d OpenAI`: 네트워크 의존, 약간 느림, 그러나 품질 우위 가능성 존재 - 즉 다음 계획 단계에서 해야 할 것은 `이론 비교`가 아니라 `같은 질문셋으로 실제 retrieval quality를 비교하는 실험`이다. +### 7. 현재 작은 표본에서는 로컬 384d를 버릴 이유가 없다 + +- 작은 표본이지만 `Top1`, `Top3`, `MRR`이 OpenAI와 동률이었다. +- 따라서 현재 단계에서 바로 OpenAI 임베딩으로 전면 전환할 근거는 없다. +- 오히려 운영 단순성과 속도를 고려하면, 로컬 `384d`를 기본 후보로 유지한 채 OpenAI `1536d`를 비교군으로 계속 두는 편이 합리적이다. + ## Unresolved 1. Company X 소속 사용자 판별 기준 @@ -266,7 +323,8 @@ tags: [robeing, companyx, rag, research, internal-documents, grounding] - 오늘전통, MOU, 프로그램 소개, 운영안, 보도자료 초안 같은 문서군 우선순위를 먼저 고정해야 한다. 7. OpenAI 1536d와 로컬 384d의 실제 검색 품질 비교 결과 -- 현재는 시간/비용/구조 확인만 끝났고, retrieval quality 비교 실험 결과는 아직 없다. +- 현재는 `2문서`, `6질문` 기준 소규모 retrieval quality 비교 결과만 있다. +- 더 큰 문서군과 질문셋에서 같은 경향이 유지되는지는 아직 확인되지 않았다. ## 현재 결론 @@ -274,7 +332,8 @@ tags: [robeing, companyx, rag, research, internal-documents, grounding] - 그러나 내부 NAS 원본에는 관련 근거 문서가 실제로 존재한다. - 현재 실패 원인은 `Company X 근거 없음`이 아니라 `Company X 근거 문서가 런타임 RAG 경로와 연결되지 않음`이다. - 시간과 비용 조사 결과, `2,000개 쉬운 문서` 규모는 실험 가능한 범위이며 비용도 병목이 아니다. -- 따라서 다음 단계 `plans`는 `2,000개 샘플 문서셋`, `20~50개 질문셋`, `384d vs 1536d retrieval quality 비교`, `문서 색인`, `권한 경계`, `질문 해석`, `근거답변 형식`을 한 번에 고정하는 계획 문서여야 한다. +- 소규모 품질 비교에서는 `384d 로컬`과 `1536d OpenAI`가 동률이었으므로, 현 시점에서 모델 교체 결론을 먼저 내릴 필요는 없다. +- 따라서 다음 단계 `plans`는 `2,000개 샘플 문서셋`, `20~50개 질문셋`, `384d vs 1536d 확장 비교`, `문서 색인`, `권한 경계`, `질문 해석`, `근거답변 형식`을 한 번에 고정하는 계획 문서여야 한다. ## 관련 문서 - [Company X 내부 문서 RAG 응답 아이디어](../ideas/260312_companyx_내부문서_rag_응답_아이디어.md)