docs: Gemini Embedding 2 리서치 문서 추가

Made-with: Cursor
2026-03-15 23:39:45 +09:00 · 2026-03-15 23:39:45 +09:00 · 3ef6c27b5e
commit 3ef6c27b5e
parent a6fda1b024
1 changed files with 125 additions and 0 deletions
--- a/journey/research/rag/260315_Gemini_Embedding_2_리서치_비용_청킹_도입검토.md
+++ b/journey/research/rag/260315_Gemini_Embedding_2_리서치_비용_청킹_도입검토.md
@ -0,0 +1,125 @@
+# Gemini Embedding 2 리서치: 비용·청킹·도입 검토
+
+**작성일**: 2026-03-15  
+**출처**: Gemini와의 대화 정리
+
+---
+
+## 1. 개요
+
+Google Gemini Embedding 2는 텍스트뿐 아니라 이미지, 오디오, 비디오, PDF를 하나의 벡터 공간에서 처리하는 멀티모달 임베딩 모델이다. 본 문서는 robeing·Goose Council·NAS 기반 RAG 적용 관점에서 특징, 비용, 도입 의견, 청킹 전략을 정리한다.
+
+---
+
+## 2. 주요 특징
+
+### 2.1 핵심 기능
+
+| 항목 | 내용 |
+|------|------|
+| 멀티모달 | 텍스트, 이미지, 오디오, 비디오, PDF를 동일한 벡터로 변환 |
+| MRL | 출력 차원 조절 가능 (기본 3,072 → 768/1,536 등) |
+| 긴 컨텍스트 | 최대 8,192 토큰 입력 |
+| 다국어 | 한국어 포함 100개 이상 언어 |
+
+### 2.2 모델 정보
+
+| 모델 ID | 용도 | 출력 차원 |
+|---------|------|-----------|
+| gemini-embedding-2-preview | 멀티모달 검색, RAG, 분류 | 3,072 (조절 가능) |
+| text-embedding-004 | 텍스트 전용 | 768 |
+
+### 2.3 사용 예시 (Python)
+
+```python
+from google import genai
+from google.genai import types
+
+client = genai.Client(api_key="YOUR_API_KEY")
+
+response = client.models.embed_content(
+    model="gemini-embedding-2-preview",
+    contents="AI 프로젝트 로빙(robeing)의 개발 방향은 무엇인가요?",
+    config=types.EmbedContentConfig(output_dimensionality=768)
+)
+
+print(response.embeddings[0].values)
+```
+
+---
+
+## 3. 비용 비교 (1M 토큰 기준, 2026년 3월)
+
+| 회사 | 모델 | Text 1M | Image/Audio | 특징 |
+|------|------|---------|-------------|------|
+| Google | Gemini Embedding 2 | $0.25 | $0.25 (Image/Video) / $0.50 (Audio) | 멀티모달 네이티브 |
+| OpenAI | text-embedding-3-large | $0.13 | 미지원 | Matryoshka, 대중적 |
+| OpenAI | text-embedding-3-small | $0.02 | 미지원 | 가성비 우수 |
+| Cohere | Embed v4 | $0.10 | $0.47 (Image/PDF) | PDF 직접 임베딩 |
+| Voyage AI | voyage-3-large | $0.12 | 미지원 | 코드/기술 문서 강함 |
+
+### 비용 효율성
+
+- 무료 티어: AI Studio에서 일정량 무료 테스트 가능
+- MRL: 768차원으로 축소 시 벡터 DB 저장 비용 최대 75% 절감
+- 복합 데이터: 이미지/영상 직접 임베딩으로 캡셔닝 파이프라인 비용·지연 감소
+
+---
+
+## 4. 도입 의견 (실사용자 피드백 기반)
+
+### 4.1 긍정 피드백
+
+- "파이프라인이 단순해졌다": 이미지 → 캡셔닝 → 텍스트 임베딩 과정 불필요
+- "오디오 성능이 기대 이상": 감정·톤·소음 맥락까지 검색 반영
+- "MRL 실효성": 768차원 축소해도 Recall 크게 저하 없음
+
+### 4.2 도입 권장 상황
+
+- 멀티모달 데이터(이미지, PDF, 영상)가 핵심인 경우
+- 글로벌 서비스 지향 (다국어)
+- Google 인프라(Vertex AI/AI Studio) 이미 사용 중
+
+### 4.3 지켜보거나 병용 권장
+
+- 순수 텍스트 전용: text-embedding-3-small, text-embedding-004가 유리
+- 로컬/오프라인 필수: EmbeddingGemma 등 로컬 모델 검토
+
+### 4.4 종합 제안
+
+- NAS 기반 RAG에 **부분 도입** 권장
+- 무료 티어로 PDF·이미지 임베딩 테스트 후 품질 비교
+- 품질 차이 확실하면 **하이브리드**: 미디어는 Gemini Embedding 2, 텍스트는 저렴한 모델
+
+---
+
+## 5. 청킹 전략 변화
+
+### 5.1 핵심
+
+"청킹이 필요 없다"가 아니라 **"청킹 단위가 커지고 자유로워졌다"**.
+
+### 5.2 데이터 유형별
+
+| 데이터 유형 | 기존 (Micro-Chunking) | Gemini Embedding 2 (Macro-Chunking) |
+|-------------|------------------------|-------------------------------------|
+| 일반 문서 | 300~500 단어씩 | 2,000~4,000 토큰 단위 |
+| 표/차트 PDF | 텍스트만 추출 후 청킹 | 6페이지 단위로 PDF 직접 임베딩 |
+| 코드 (robeing) | 함수 단위 | 파일 전체 또는 모듈 단위 |
+
+### 5.3 제한
+
+- 텍스트: 8,192 토큰 (A4 약 10~15장)
+- PDF: 최대 6페이지까지 직접 인식
+- 영상: 120초, 오디오: 80초까지 1회 임베딩
+
+### 5.4 주의
+
+1,000페이지 PDF나 1시간 영상은 한 번에 불가. "의미가 훼손되지 않을 만큼 큼직하게 자를 수 있게 되었다"가 핵심.
+
+---
+
+## 6. 참고
+
+- RAG 활용: RETRIEVAL_QUERY vs RETRIEVAL_DOCUMENT 태스크 타입 구분 시 검색 정확도 향상
+- 관련: `251110_gemini_file_search_api_테스트_및_콜드메일_개선방안_평가.md`