docs: Gemini Embedding 2 리서치 문서 추가

Made-with: Cursor
This commit is contained in:
happybell80 2026-03-15 23:39:45 +09:00
parent a6fda1b024
commit 3ef6c27b5e

View File

@ -0,0 +1,125 @@
# Gemini Embedding 2 리서치: 비용·청킹·도입 검토
**작성일**: 2026-03-15
**출처**: Gemini와의 대화 정리
---
## 1. 개요
Google Gemini Embedding 2는 텍스트뿐 아니라 이미지, 오디오, 비디오, PDF를 하나의 벡터 공간에서 처리하는 멀티모달 임베딩 모델이다. 본 문서는 robeing·Goose Council·NAS 기반 RAG 적용 관점에서 특징, 비용, 도입 의견, 청킹 전략을 정리한다.
---
## 2. 주요 특징
### 2.1 핵심 기능
| 항목 | 내용 |
|------|------|
| 멀티모달 | 텍스트, 이미지, 오디오, 비디오, PDF를 동일한 벡터로 변환 |
| MRL | 출력 차원 조절 가능 (기본 3,072 → 768/1,536 등) |
| 긴 컨텍스트 | 최대 8,192 토큰 입력 |
| 다국어 | 한국어 포함 100개 이상 언어 |
### 2.2 모델 정보
| 모델 ID | 용도 | 출력 차원 |
|---------|------|-----------|
| gemini-embedding-2-preview | 멀티모달 검색, RAG, 분류 | 3,072 (조절 가능) |
| text-embedding-004 | 텍스트 전용 | 768 |
### 2.3 사용 예시 (Python)
```python
from google import genai
from google.genai import types
client = genai.Client(api_key="YOUR_API_KEY")
response = client.models.embed_content(
model="gemini-embedding-2-preview",
contents="AI 프로젝트 로빙(robeing)의 개발 방향은 무엇인가요?",
config=types.EmbedContentConfig(output_dimensionality=768)
)
print(response.embeddings[0].values)
```
---
## 3. 비용 비교 (1M 토큰 기준, 2026년 3월)
| 회사 | 모델 | Text 1M | Image/Audio | 특징 |
|------|------|---------|-------------|------|
| Google | Gemini Embedding 2 | $0.25 | $0.25 (Image/Video) / $0.50 (Audio) | 멀티모달 네이티브 |
| OpenAI | text-embedding-3-large | $0.13 | 미지원 | Matryoshka, 대중적 |
| OpenAI | text-embedding-3-small | $0.02 | 미지원 | 가성비 우수 |
| Cohere | Embed v4 | $0.10 | $0.47 (Image/PDF) | PDF 직접 임베딩 |
| Voyage AI | voyage-3-large | $0.12 | 미지원 | 코드/기술 문서 강함 |
### 비용 효율성
- 무료 티어: AI Studio에서 일정량 무료 테스트 가능
- MRL: 768차원으로 축소 시 벡터 DB 저장 비용 최대 75% 절감
- 복합 데이터: 이미지/영상 직접 임베딩으로 캡셔닝 파이프라인 비용·지연 감소
---
## 4. 도입 의견 (실사용자 피드백 기반)
### 4.1 긍정 피드백
- "파이프라인이 단순해졌다": 이미지 → 캡셔닝 → 텍스트 임베딩 과정 불필요
- "오디오 성능이 기대 이상": 감정·톤·소음 맥락까지 검색 반영
- "MRL 실효성": 768차원 축소해도 Recall 크게 저하 없음
### 4.2 도입 권장 상황
- 멀티모달 데이터(이미지, PDF, 영상)가 핵심인 경우
- 글로벌 서비스 지향 (다국어)
- Google 인프라(Vertex AI/AI Studio) 이미 사용 중
### 4.3 지켜보거나 병용 권장
- 순수 텍스트 전용: text-embedding-3-small, text-embedding-004가 유리
- 로컬/오프라인 필수: EmbeddingGemma 등 로컬 모델 검토
### 4.4 종합 제안
- NAS 기반 RAG에 **부분 도입** 권장
- 무료 티어로 PDF·이미지 임베딩 테스트 후 품질 비교
- 품질 차이 확실하면 **하이브리드**: 미디어는 Gemini Embedding 2, 텍스트는 저렴한 모델
---
## 5. 청킹 전략 변화
### 5.1 핵심
"청킹이 필요 없다"가 아니라 **"청킹 단위가 커지고 자유로워졌다"**.
### 5.2 데이터 유형별
| 데이터 유형 | 기존 (Micro-Chunking) | Gemini Embedding 2 (Macro-Chunking) |
|-------------|------------------------|-------------------------------------|
| 일반 문서 | 300~500 단어씩 | 2,000~4,000 토큰 단위 |
| 표/차트 PDF | 텍스트만 추출 후 청킹 | 6페이지 단위로 PDF 직접 임베딩 |
| 코드 (robeing) | 함수 단위 | 파일 전체 또는 모듈 단위 |
### 5.3 제한
- 텍스트: 8,192 토큰 (A4 약 10~15장)
- PDF: 최대 6페이지까지 직접 인식
- 영상: 120초, 오디오: 80초까지 1회 임베딩
### 5.4 주의
1,000페이지 PDF나 1시간 영상은 한 번에 불가. "의미가 훼손되지 않을 만큼 큼직하게 자를 수 있게 되었다"가 핵심.
---
## 6. 참고
- RAG 활용: RETRIEVAL_QUERY vs RETRIEVAL_DOCUMENT 태스크 타입 구분 시 검색 정확도 향상
- 관련: `251110_gemini_file_search_api_테스트_및_콜드메일_개선방안_평가.md`