docs: add Company X embedding quality comparison

This commit is contained in:
Claude-51124 2026-03-12 22:15:08 +09:00
parent a253b65eaf
commit 6f826affe0

View File

@ -198,6 +198,57 @@ tags: [robeing, companyx, rag, research, internal-documents, grounding]
- 인덱싱 시간, 검색 시간 - 인덱싱 시간, 검색 시간
- 현재 단계에서 가장 중요한 지표는 `정답률`보다 `근거 일관성``상위 검색 적중률`이다 - 현재 단계에서 가장 중요한 지표는 `정답률`보다 `근거 일관성``상위 검색 적중률`이다
### 16. 소규모 retrieval 품질 비교 결과, 로컬 384d와 OpenAI 1536d는 현재 표본에서 동률이었다
- 비교 조건:
- 문서: `옐로펀치X컴퍼니엑스 MOU` 1건, `오늘전통 사업계획서_컴퍼니엑스` 1건
- 청킹: `skill-rag-file`과 같은 문자 기반 청킹(`1000`, overlap `200`)
- 총 청크 수:
- `mou`: `3`
- `todaytradition`: `38`
- 질문: `6개`
- 평가 단위: `문서 수준 top1/top3`, `MRR`
- 비교 모델:
- 로컬: `multilingual-MiniLM-L12-v2` `384d`
- OpenAI: `text-embedding-3-small` `1536d`
- 결과 요약:
- 로컬 `384d`
- `Top1 = 4/6`
- `Top3 = 6/6`
- `MRR = 0.8333`
- OpenAI `1536d`
- `Top1 = 4/6`
- `Top3 = 6/6`
- `MRR = 0.8333`
- 즉 이 표본에서는 두 모델이 문서 수준 retrieval 성능에서 사실상 동률이었다.
### 17. 질문 유형별로는 두 모델의 강점이 조금 다르게 나타났다
- 로컬 `384d`가 더 잘 맞힌 질문:
- `오늘전통 사업계획서에서 옐로펀치가 협력기관으로 제시되는 근거`
- 이 질문에서 로컬은 `todaytradition``Top1`로 올렸고, OpenAI는 `mou``Top1`로 올렸다.
- OpenAI `1536d`가 더 잘 맞힌 질문:
- `예비창업자 및 초기 창업기업 대상 지원사업 공동 컨소시엄 협력`
- 이 질문에서 OpenAI는 `mou``Top1`로 올렸고, 로컬은 `todaytradition``Top1`로 올렸다.
- 공통적으로 둘 다 헷갈린 질문:
- `교육 멘토링 세미나 IR 등 기업 육성 프로그램 운영 참여`
- 두 모델 모두 `todaytradition``Top1`로 올리고 `mou``2위`로 두었다.
### 18. 현재 표본 기준으로는 차원 수가 곧바로 품질 우위를 보장하지 않았다
- `1536d` OpenAI 모델이 `384d` 로컬 모델보다 무조건 더 낫다는 결과는 나오지 않았다.
- 현재 표본에서는 두 모델이 같은 점수를 냈고, 질문별로 서로 다른 실수를 보였다.
- 따라서 다음 단계에서 모델 선택은 `차원 수`만으로 결정하면 안 된다.
### 19. 현재 단계에서 더 필요한 것은 큰 모델 교체보다 질문셋 확대와 문서군 확대다
- 지금 비교는 `2문서`, `6질문`의 매우 작은 샘플이다.
- 이 표본만으로 최종 모델 결론을 내리기에는 부족하다.
- 그러나 최소한 아래 두 사실은 확인됐다.
- 로컬 `384d`도 Company X 근거 검색에 충분히 경쟁력 있는 초기 후보다.
- OpenAI `1536d`는 비용이 낮고 품질 비교 가치가 있지만, 현재 표본에서 압도적 우위를 보이지는 않았다.
- 따라서 다음 계획에서는 먼저 `2,000개 쉬운 문서``20~50개 질문셋`으로 비교 범위를 넓히는 것이 맞다.
## Interpretation ## Interpretation
### 1. 아이디어 문서는 유효한 가설이다 ### 1. 아이디어 문서는 유효한 가설이다
@ -243,6 +294,12 @@ tags: [robeing, companyx, rag, research, internal-documents, grounding]
- `1536d OpenAI`: 네트워크 의존, 약간 느림, 그러나 품질 우위 가능성 존재 - `1536d OpenAI`: 네트워크 의존, 약간 느림, 그러나 품질 우위 가능성 존재
- 즉 다음 계획 단계에서 해야 할 것은 `이론 비교`가 아니라 `같은 질문셋으로 실제 retrieval quality를 비교하는 실험`이다. - 즉 다음 계획 단계에서 해야 할 것은 `이론 비교`가 아니라 `같은 질문셋으로 실제 retrieval quality를 비교하는 실험`이다.
### 7. 현재 작은 표본에서는 로컬 384d를 버릴 이유가 없다
- 작은 표본이지만 `Top1`, `Top3`, `MRR`이 OpenAI와 동률이었다.
- 따라서 현재 단계에서 바로 OpenAI 임베딩으로 전면 전환할 근거는 없다.
- 오히려 운영 단순성과 속도를 고려하면, 로컬 `384d`를 기본 후보로 유지한 채 OpenAI `1536d`를 비교군으로 계속 두는 편이 합리적이다.
## Unresolved ## Unresolved
1. Company X 소속 사용자 판별 기준 1. Company X 소속 사용자 판별 기준
@ -266,7 +323,8 @@ tags: [robeing, companyx, rag, research, internal-documents, grounding]
- 오늘전통, MOU, 프로그램 소개, 운영안, 보도자료 초안 같은 문서군 우선순위를 먼저 고정해야 한다. - 오늘전통, MOU, 프로그램 소개, 운영안, 보도자료 초안 같은 문서군 우선순위를 먼저 고정해야 한다.
7. OpenAI 1536d와 로컬 384d의 실제 검색 품질 비교 결과 7. OpenAI 1536d와 로컬 384d의 실제 검색 품질 비교 결과
- 현재는 시간/비용/구조 확인만 끝났고, retrieval quality 비교 실험 결과는 아직 없다. - 현재는 `2문서`, `6질문` 기준 소규모 retrieval quality 비교 결과만 있다.
- 더 큰 문서군과 질문셋에서 같은 경향이 유지되는지는 아직 확인되지 않았다.
## 현재 결론 ## 현재 결론
@ -274,7 +332,8 @@ tags: [robeing, companyx, rag, research, internal-documents, grounding]
- 그러나 내부 NAS 원본에는 관련 근거 문서가 실제로 존재한다. - 그러나 내부 NAS 원본에는 관련 근거 문서가 실제로 존재한다.
- 현재 실패 원인은 `Company X 근거 없음`이 아니라 `Company X 근거 문서가 런타임 RAG 경로와 연결되지 않음`이다. - 현재 실패 원인은 `Company X 근거 없음`이 아니라 `Company X 근거 문서가 런타임 RAG 경로와 연결되지 않음`이다.
- 시간과 비용 조사 결과, `2,000개 쉬운 문서` 규모는 실험 가능한 범위이며 비용도 병목이 아니다. - 시간과 비용 조사 결과, `2,000개 쉬운 문서` 규모는 실험 가능한 범위이며 비용도 병목이 아니다.
- 따라서 다음 단계 `plans``2,000개 샘플 문서셋`, `20~50개 질문셋`, `384d vs 1536d retrieval quality 비교`, `문서 색인`, `권한 경계`, `질문 해석`, `근거답변 형식`을 한 번에 고정하는 계획 문서여야 한다. - 소규모 품질 비교에서는 `384d 로컬``1536d OpenAI`가 동률이었으므로, 현 시점에서 모델 교체 결론을 먼저 내릴 필요는 없다.
- 따라서 다음 단계 `plans``2,000개 샘플 문서셋`, `20~50개 질문셋`, `384d vs 1536d 확장 비교`, `문서 색인`, `권한 경계`, `질문 해석`, `근거답변 형식`을 한 번에 고정하는 계획 문서여야 한다.
## 관련 문서 ## 관련 문서
- [Company X 내부 문서 RAG 응답 아이디어](../ideas/260312_companyx_내부문서_rag_응답_아이디어.md) - [Company X 내부 문서 RAG 응답 아이디어](../ideas/260312_companyx_내부문서_rag_응답_아이디어.md)