docs: add Company X embedding quality comparison

2026-03-12 22:15:08 +09:00 · 2026-03-12 22:15:08 +09:00 · 6f826affe0
commit 6f826affe0
parent a253b65eaf
1 changed files with 61 additions and 2 deletions
--- a/journey/research/260312_companyx_내부문서_rag_근거응답_현황_리서치.md
+++ b/journey/research/260312_companyx_내부문서_rag_근거응답_현황_리서치.md
@ -198,6 +198,57 @@ tags: [robeing, companyx, rag, research, internal-documents, grounding]
  - 인덱싱 시간, 검색 시간
 - 현재 단계에서 가장 중요한 지표는 `정답률`보다 `근거 일관성`과 `상위 검색 적중률`이다

+### 16. 소규모 retrieval 품질 비교 결과, 로컬 384d와 OpenAI 1536d는 현재 표본에서 동률이었다
+
+- 비교 조건:
+  - 문서: `옐로펀치X컴퍼니엑스 MOU` 1건, `오늘전통 사업계획서_컴퍼니엑스` 1건
+  - 청킹: `skill-rag-file`과 같은 문자 기반 청킹(`1000`, overlap `200`)
+  - 총 청크 수:
+    - `mou`: `3`
+    - `todaytradition`: `38`
+  - 질문: `6개`
+  - 평가 단위: `문서 수준 top1/top3`, `MRR`
+- 비교 모델:
+  - 로컬: `multilingual-MiniLM-L12-v2` `384d`
+  - OpenAI: `text-embedding-3-small` `1536d`
+- 결과 요약:
+  - 로컬 `384d`
+    - `Top1 = 4/6`
+    - `Top3 = 6/6`
+    - `MRR = 0.8333`
+  - OpenAI `1536d`
+    - `Top1 = 4/6`
+    - `Top3 = 6/6`
+    - `MRR = 0.8333`
+- 즉 이 표본에서는 두 모델이 문서 수준 retrieval 성능에서 사실상 동률이었다.
+
+### 17. 질문 유형별로는 두 모델의 강점이 조금 다르게 나타났다
+
+- 로컬 `384d`가 더 잘 맞힌 질문:
+  - `오늘전통 사업계획서에서 옐로펀치가 협력기관으로 제시되는 근거`
+  - 이 질문에서 로컬은 `todaytradition`을 `Top1`로 올렸고, OpenAI는 `mou`를 `Top1`로 올렸다.
+- OpenAI `1536d`가 더 잘 맞힌 질문:
+  - `예비창업자 및 초기 창업기업 대상 지원사업 공동 컨소시엄 협력`
+  - 이 질문에서 OpenAI는 `mou`를 `Top1`로 올렸고, 로컬은 `todaytradition`을 `Top1`로 올렸다.
+- 공통적으로 둘 다 헷갈린 질문:
+  - `교육 멘토링 세미나 IR 등 기업 육성 프로그램 운영 참여`
+  - 두 모델 모두 `todaytradition`을 `Top1`로 올리고 `mou`를 `2위`로 두었다.
+
+### 18. 현재 표본 기준으로는 차원 수가 곧바로 품질 우위를 보장하지 않았다
+
+- `1536d` OpenAI 모델이 `384d` 로컬 모델보다 무조건 더 낫다는 결과는 나오지 않았다.
+- 현재 표본에서는 두 모델이 같은 점수를 냈고, 질문별로 서로 다른 실수를 보였다.
+- 따라서 다음 단계에서 모델 선택은 `차원 수`만으로 결정하면 안 된다.
+
+### 19. 현재 단계에서 더 필요한 것은 큰 모델 교체보다 질문셋 확대와 문서군 확대다
+
+- 지금 비교는 `2문서`, `6질문`의 매우 작은 샘플이다.
+- 이 표본만으로 최종 모델 결론을 내리기에는 부족하다.
+- 그러나 최소한 아래 두 사실은 확인됐다.
+  - 로컬 `384d`도 Company X 근거 검색에 충분히 경쟁력 있는 초기 후보다.
+  - OpenAI `1536d`는 비용이 낮고 품질 비교 가치가 있지만, 현재 표본에서 압도적 우위를 보이지는 않았다.
+- 따라서 다음 계획에서는 먼저 `2,000개 쉬운 문서`와 `20~50개 질문셋`으로 비교 범위를 넓히는 것이 맞다.
+
 ## Interpretation

 ### 1. 아이디어 문서는 유효한 가설이다
@ -243,6 +294,12 @@ tags: [robeing, companyx, rag, research, internal-documents, grounding]
  - `1536d OpenAI`: 네트워크 의존, 약간 느림, 그러나 품질 우위 가능성 존재
 - 즉 다음 계획 단계에서 해야 할 것은 `이론 비교`가 아니라 `같은 질문셋으로 실제 retrieval quality를 비교하는 실험`이다.

+### 7. 현재 작은 표본에서는 로컬 384d를 버릴 이유가 없다
+
+- 작은 표본이지만 `Top1`, `Top3`, `MRR`이 OpenAI와 동률이었다.
+- 따라서 현재 단계에서 바로 OpenAI 임베딩으로 전면 전환할 근거는 없다.
+- 오히려 운영 단순성과 속도를 고려하면, 로컬 `384d`를 기본 후보로 유지한 채 OpenAI `1536d`를 비교군으로 계속 두는 편이 합리적이다.
+
 ## Unresolved

 1. Company X 소속 사용자 판별 기준
@ -266,7 +323,8 @@ tags: [robeing, companyx, rag, research, internal-documents, grounding]
 - 오늘전통, MOU, 프로그램 소개, 운영안, 보도자료 초안 같은 문서군 우선순위를 먼저 고정해야 한다.

 7. OpenAI 1536d와 로컬 384d의 실제 검색 품질 비교 결과
- 현재는 시간/비용/구조 확인만 끝났고, retrieval quality 비교 실험 결과는 아직 없다.
+- 현재는 `2문서`, `6질문` 기준 소규모 retrieval quality 비교 결과만 있다.
+- 더 큰 문서군과 질문셋에서 같은 경향이 유지되는지는 아직 확인되지 않았다.

 ## 현재 결론

@ -274,7 +332,8 @@ tags: [robeing, companyx, rag, research, internal-documents, grounding]
 - 그러나 내부 NAS 원본에는 관련 근거 문서가 실제로 존재한다.
 - 현재 실패 원인은 `Company X 근거 없음`이 아니라 `Company X 근거 문서가 런타임 RAG 경로와 연결되지 않음`이다.
 - 시간과 비용 조사 결과, `2,000개 쉬운 문서` 규모는 실험 가능한 범위이며 비용도 병목이 아니다.
- 따라서 다음 단계 `plans`는 `2,000개 샘플 문서셋`, `20~50개 질문셋`, `384d vs 1536d retrieval quality 비교`, `문서 색인`, `권한 경계`, `질문 해석`, `근거답변 형식`을 한 번에 고정하는 계획 문서여야 한다.
+- 소규모 품질 비교에서는 `384d 로컬`과 `1536d OpenAI`가 동률이었으므로, 현 시점에서 모델 교체 결론을 먼저 내릴 필요는 없다.
+- 따라서 다음 단계 `plans`는 `2,000개 샘플 문서셋`, `20~50개 질문셋`, `384d vs 1536d 확장 비교`, `문서 색인`, `권한 경계`, `질문 해석`, `근거답변 형식`을 한 번에 고정하는 계획 문서여야 한다.

 ## 관련 문서
 - [Company X 내부 문서 RAG 응답 아이디어](../ideas/260312_companyx_내부문서_rag_응답_아이디어.md)