From 3ef6c27b5e9c57bad7335a401a88b3736d5ac3d9 Mon Sep 17 00:00:00 2001 From: happybell80 Date: Sun, 15 Mar 2026 23:39:45 +0900 Subject: [PATCH] =?UTF-8?q?docs:=20Gemini=20Embedding=202=20=EB=A6=AC?= =?UTF-8?q?=EC=84=9C=EC=B9=98=20=EB=AC=B8=EC=84=9C=20=EC=B6=94=EA=B0=80?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit Made-with: Cursor --- ..._2_리서치_비용_청킹_도입검토.md | 125 ++++++++++++++++++ 1 file changed, 125 insertions(+) create mode 100644 journey/research/rag/260315_Gemini_Embedding_2_리서치_비용_청킹_도입검토.md diff --git a/journey/research/rag/260315_Gemini_Embedding_2_리서치_비용_청킹_도입검토.md b/journey/research/rag/260315_Gemini_Embedding_2_리서치_비용_청킹_도입검토.md new file mode 100644 index 0000000..9315bda --- /dev/null +++ b/journey/research/rag/260315_Gemini_Embedding_2_리서치_비용_청킹_도입검토.md @@ -0,0 +1,125 @@ +# Gemini Embedding 2 리서치: 비용·청킹·도입 검토 + +**작성일**: 2026-03-15 +**출처**: Gemini와의 대화 정리 + +--- + +## 1. 개요 + +Google Gemini Embedding 2는 텍스트뿐 아니라 이미지, 오디오, 비디오, PDF를 하나의 벡터 공간에서 처리하는 멀티모달 임베딩 모델이다. 본 문서는 robeing·Goose Council·NAS 기반 RAG 적용 관점에서 특징, 비용, 도입 의견, 청킹 전략을 정리한다. + +--- + +## 2. 주요 특징 + +### 2.1 핵심 기능 + +| 항목 | 내용 | +|------|------| +| 멀티모달 | 텍스트, 이미지, 오디오, 비디오, PDF를 동일한 벡터로 변환 | +| MRL | 출력 차원 조절 가능 (기본 3,072 → 768/1,536 등) | +| 긴 컨텍스트 | 최대 8,192 토큰 입력 | +| 다국어 | 한국어 포함 100개 이상 언어 | + +### 2.2 모델 정보 + +| 모델 ID | 용도 | 출력 차원 | +|---------|------|-----------| +| gemini-embedding-2-preview | 멀티모달 검색, RAG, 분류 | 3,072 (조절 가능) | +| text-embedding-004 | 텍스트 전용 | 768 | + +### 2.3 사용 예시 (Python) + +```python +from google import genai +from google.genai import types + +client = genai.Client(api_key="YOUR_API_KEY") + +response = client.models.embed_content( + model="gemini-embedding-2-preview", + contents="AI 프로젝트 로빙(robeing)의 개발 방향은 무엇인가요?", + config=types.EmbedContentConfig(output_dimensionality=768) +) + +print(response.embeddings[0].values) +``` + +--- + +## 3. 비용 비교 (1M 토큰 기준, 2026년 3월) + +| 회사 | 모델 | Text 1M | Image/Audio | 특징 | +|------|------|---------|-------------|------| +| Google | Gemini Embedding 2 | $0.25 | $0.25 (Image/Video) / $0.50 (Audio) | 멀티모달 네이티브 | +| OpenAI | text-embedding-3-large | $0.13 | 미지원 | Matryoshka, 대중적 | +| OpenAI | text-embedding-3-small | $0.02 | 미지원 | 가성비 우수 | +| Cohere | Embed v4 | $0.10 | $0.47 (Image/PDF) | PDF 직접 임베딩 | +| Voyage AI | voyage-3-large | $0.12 | 미지원 | 코드/기술 문서 강함 | + +### 비용 효율성 + +- 무료 티어: AI Studio에서 일정량 무료 테스트 가능 +- MRL: 768차원으로 축소 시 벡터 DB 저장 비용 최대 75% 절감 +- 복합 데이터: 이미지/영상 직접 임베딩으로 캡셔닝 파이프라인 비용·지연 감소 + +--- + +## 4. 도입 의견 (실사용자 피드백 기반) + +### 4.1 긍정 피드백 + +- "파이프라인이 단순해졌다": 이미지 → 캡셔닝 → 텍스트 임베딩 과정 불필요 +- "오디오 성능이 기대 이상": 감정·톤·소음 맥락까지 검색 반영 +- "MRL 실효성": 768차원 축소해도 Recall 크게 저하 없음 + +### 4.2 도입 권장 상황 + +- 멀티모달 데이터(이미지, PDF, 영상)가 핵심인 경우 +- 글로벌 서비스 지향 (다국어) +- Google 인프라(Vertex AI/AI Studio) 이미 사용 중 + +### 4.3 지켜보거나 병용 권장 + +- 순수 텍스트 전용: text-embedding-3-small, text-embedding-004가 유리 +- 로컬/오프라인 필수: EmbeddingGemma 등 로컬 모델 검토 + +### 4.4 종합 제안 + +- NAS 기반 RAG에 **부분 도입** 권장 +- 무료 티어로 PDF·이미지 임베딩 테스트 후 품질 비교 +- 품질 차이 확실하면 **하이브리드**: 미디어는 Gemini Embedding 2, 텍스트는 저렴한 모델 + +--- + +## 5. 청킹 전략 변화 + +### 5.1 핵심 + +"청킹이 필요 없다"가 아니라 **"청킹 단위가 커지고 자유로워졌다"**. + +### 5.2 데이터 유형별 + +| 데이터 유형 | 기존 (Micro-Chunking) | Gemini Embedding 2 (Macro-Chunking) | +|-------------|------------------------|-------------------------------------| +| 일반 문서 | 300~500 단어씩 | 2,000~4,000 토큰 단위 | +| 표/차트 PDF | 텍스트만 추출 후 청킹 | 6페이지 단위로 PDF 직접 임베딩 | +| 코드 (robeing) | 함수 단위 | 파일 전체 또는 모듈 단위 | + +### 5.3 제한 + +- 텍스트: 8,192 토큰 (A4 약 10~15장) +- PDF: 최대 6페이지까지 직접 인식 +- 영상: 120초, 오디오: 80초까지 1회 임베딩 + +### 5.4 주의 + +1,000페이지 PDF나 1시간 영상은 한 번에 불가. "의미가 훼손되지 않을 만큼 큼직하게 자를 수 있게 되었다"가 핵심. + +--- + +## 6. 참고 + +- RAG 활용: RETRIEVAL_QUERY vs RETRIEVAL_DOCUMENT 태스크 타입 구분 시 검색 정확도 향상 +- 관련: `251110_gemini_file_search_api_테스트_및_콜드메일_개선방안_평가.md`