docs(research): update Gemini Embedding 2 hybrid indexing findings

This commit is contained in:
happybell80 2026-03-19 19:33:53 +09:00
parent dd786dfed6
commit 6844dff07d

View File

@ -330,4 +330,23 @@ tags: [research, companyx, rag, answer-composition, scenario, troubleshooting]
- ~~**skill-embedding 배포 이미지와 레포 코드 일치 여부 미확인**~~**확인 완료 (2026-03-17)**: 활성 서비스는 `skill-embedding-repo/`(`GeminiEmbedder`, Gemini Embedding 2 기반). 레거시 `skill-embedding/`(ONNX)와는 별도 레포. 해소.
- ~~**Phase 5A 파이프라인 전환 + 인터페이스 계약**~~**코드 구현 완료 (2026-03-17)**: `task_type`(RETRIEVAL_DOCUMENT/QUERY) 전달 + `metadata` pass-through 양쪽(skill-embedding, skill-rag-file) 구현. 배포/재기동은 미완료.
상세: [260317_companyx_grounding_코드검토_및_문서현행화](../worklog/260317_companyx_grounding_코드검토_및_문서현행화.md)
### 260317_companyx_grounding_코드검토_및_문서현행화](../worklog/260317_companyx_grounding_코드검토_및_문서현행화.md)
---
## 2026-03-19 최신 리서치: Gemini Embedding 2 멀티모달 검색 이슈 및 하이브리드 해결책
#### 1. 문제 발견 (관측 및 검증)
* **현상:** PDF 바이너리 직접 임베딩(`pdf_original_bytes`) 시, 텍스트 쿼리에 대한 검색 결과가 빈 배열(`[]`)로 반환되거나 유사도가 극히 낮음.
* **근본 원인:**
- **페이지 제한:** Gemini Embedding 2는 PDF 직접 임베딩 시 1회 최대 6페이지 제한이 있어 대형 문서의 정보 손실 발생.
- **벡터 공간 편차:** 바이너리 기반 벡터(시각적 문맥 포함)와 텍스트 기반 쿼리 벡터 간의 공간적 거리가 멀어 기존 검색 임계값 미달.
#### 2. 해결 방안: 하이브리드 임베딩 (Hybrid Indexing)
* **전략:** 동일 PDF 문서에 대해 '원본 바이너리 임베딩(시각적 맥락)'과 '텍스트 추출 임베딩(정밀 키워드)'을 병행 수행.
* **실측 데이터:** 최신 50개 텍스트 중심 문서(MOU, 투자계획서 등)에 하이브리드 모드 적용 결과, 텍스트 쿼리에 대한 검색 적중률(Recall)이 정상 복구됨을 확인.
#### 3. 결론 및 향후 조치
* **인덱싱 파이프라인 수정:** `IndexingPipelineService`를 하이브리드 모드로 상시 전환 (배포 완료).
* **재인덱싱:** 기존 Company X의 텍스트 밀집 문서들을 하이브리드 방식으로 재인덱싱하여 RAG 답변 합성의 '근거 데이터' 신뢰성 회복.