docs(research): update Gemini Embedding 2 hybrid indexing findings

2026-03-19 19:33:53 +09:00 · 2026-03-19 19:33:53 +09:00 · 6844dff07d
commit 6844dff07d
parent dd786dfed6
1 changed files with 20 additions and 1 deletions
--- a/journey/research/260315_companyx_rag_답변합성_시나리오동시종결_리서치.md
+++ b/journey/research/260315_companyx_rag_답변합성_시나리오동시종결_리서치.md
@ -330,4 +330,23 @@ tags: [research, companyx, rag, answer-composition, scenario, troubleshooting]
 - ~~**skill-embedding 배포 이미지와 레포 코드 일치 여부 미확인**~~ → **확인 완료 (2026-03-17)**: 활성 서비스는 `skill-embedding-repo/`(`GeminiEmbedder`, Gemini Embedding 2 기반). 레거시 `skill-embedding/`(ONNX)와는 별도 레포. 해소.
 - ~~**Phase 5A 파이프라인 전환 + 인터페이스 계약**~~ → **코드 구현 완료 (2026-03-17)**: `task_type`(RETRIEVAL_DOCUMENT/QUERY) 전달 + `metadata` pass-through 양쪽(skill-embedding, skill-rag-file) 구현. 배포/재기동은 미완료.

-상세: [260317_companyx_grounding_코드검토_및_문서현행화](../worklog/260317_companyx_grounding_코드검토_및_문서현행화.md)
+### 260317_companyx_grounding_코드검토_및_문서현행화](../worklog/260317_companyx_grounding_코드검토_및_문서현행화.md)
+
+---
+
+## 2026-03-19 최신 리서치: Gemini Embedding 2 멀티모달 검색 이슈 및 하이브리드 해결책
+
+#### 1. 문제 발견 (관측 및 검증)
+*   **현상:** PDF 바이너리 직접 임베딩(`pdf_original_bytes`) 시, 텍스트 쿼리에 대한 검색 결과가 빈 배열(`[]`)로 반환되거나 유사도가 극히 낮음.
+*   **근본 원인:** 
+    - **페이지 제한:** Gemini Embedding 2는 PDF 직접 임베딩 시 1회 최대 6페이지 제한이 있어 대형 문서의 정보 손실 발생.
+    - **벡터 공간 편차:** 바이너리 기반 벡터(시각적 문맥 포함)와 텍스트 기반 쿼리 벡터 간의 공간적 거리가 멀어 기존 검색 임계값 미달.
+
+#### 2. 해결 방안: 하이브리드 임베딩 (Hybrid Indexing)
+*   **전략:** 동일 PDF 문서에 대해 '원본 바이너리 임베딩(시각적 맥락)'과 '텍스트 추출 임베딩(정밀 키워드)'을 병행 수행.
+*   **실측 데이터:** 최신 50개 텍스트 중심 문서(MOU, 투자계획서 등)에 하이브리드 모드 적용 결과, 텍스트 쿼리에 대한 검색 적중률(Recall)이 정상 복구됨을 확인.
+
+#### 3. 결론 및 향후 조치
+*   **인덱싱 파이프라인 수정:** `IndexingPipelineService`를 하이브리드 모드로 상시 전환 (배포 완료).
+*   **재인덱싱:** 기존 Company X의 텍스트 밀집 문서들을 하이브리드 방식으로 재인덱싱하여 RAG 답변 합성의 '근거 데이터' 신뢰성 회복.
+