docs: LLM 모델 비교 분석 문서를 research 폴더로 이동하고 Gemini API rate limit 정보 추가

This commit is contained in:
Claude-51124 2025-12-01 21:34:29 +09:00
parent d5f84f90f0
commit 49f4687111

View File

@ -1,4 +1,7 @@
# LLM 모델 비교 분석 (2025년 8월) # LLM 모델 비교 분석
**최종 업데이트**: 2025-12-02
**초기 조사**: 2025-08-04
## 개요 ## 개요
로빙 프로젝트를 위한 멀티 LLM 전략 수립을 위해 주요 LLM 모델들의 성능, 비용, 품질을 비교 분석했습니다. 로빙 프로젝트를 위한 멀티 LLM 전략 수립을 위해 주요 LLM 모델들의 성능, 비용, 품질을 비교 분석했습니다.
@ -13,6 +16,10 @@
### 1. Gemini 2.5 Flash-Lite ⭐ ### 1. Gemini 2.5 Flash-Lite ⭐
- **가격**: $0.10 / $0.40 (입력/출력 per 1M tokens) - **가격**: $0.10 / $0.40 (입력/출력 per 1M tokens)
- **응답 시간**: 2.04초~2.76초 - **응답 시간**: 2.04초~2.76초
- **Rate Limit (무료 티어, 2025-12-02 기준)**:
- RPM (Requests Per Minute): 15회
- TPM (Tokens Per Minute): 250K
- RPD (Requests Per Day): 1K
- **특징**: - **특징**:
- 2025년 8월 1일 정식 출시 - 2025년 8월 1일 정식 출시
- 가장 저렴한 가격 - 가장 저렴한 가격
@ -20,7 +27,30 @@
- 무료 tier 활용 가능 - 무료 tier 활용 가능
- **추천 용도**: 메인 모델 - **추천 용도**: 메인 모델
### 2. GPT-4o-mini ### 2. Gemini 2.5 Flash
- **가격**: $0.30 / $2.50 (입력/출력 per 1M tokens)
- **Rate Limit (무료 티어, 2025-12-02 기준)**:
- RPM: 10회
- TPM: 250K
- RPD: 250회
- **특징**:
- Flash-Lite보다 약간 높은 가격이지만 더 나은 성능
- 일일 요청 제한(RPD)이 Flash-Lite보다 낮음 (250 vs 1K)
- **추천 용도**: Flash-Lite 대안, 더 높은 성능 필요 시
### 3. Gemini 2.5 Pro
- **가격**: $1.25 / $10.00 (입력/출력 per 1M tokens)
- **Rate Limit (무료 티어, 2025-12-02 기준)**:
- RPM: 2회
- TPM: 125K
- RPD: 50회
- **특징**:
- 가장 제한적인 무료 티어 (RPM 2회)
- 가장 높은 가격
- 최고 성능
- **추천 용도**: 무료 티어에서는 대량 호출 부적합, 유료 플랜 필요
### 4. GPT-4o-mini
- **가격**: $0.15 / $0.60 - **가격**: $0.15 / $0.60
- **응답 시간**: 1.78초~4.68초 - **응답 시간**: 1.78초~4.68초
- **특징**: - **특징**:
@ -29,7 +59,7 @@
- OpenAI의 안정성 - OpenAI의 안정성
- **추천 용도**: 백업 모델 - **추천 용도**: 백업 모델
### 3. Mistral Small 3.1 ### 5. Mistral Small 3.1
- **가격**: $0.75 / $4.00 - **가격**: $0.75 / $4.00
- **응답 시간**: 1.49초~3.02초 - **응답 시간**: 1.49초~3.02초
- **특징**: - **특징**:
@ -38,7 +68,7 @@
- 토큰 효율적 (평균 200~300 토큰) - 토큰 효율적 (평균 200~300 토큰)
- **추천 용도**: 품질 우선 시 - **추천 용도**: 품질 우선 시
### 4. Claude 3.5 Haiku ### 6. Claude 3.5 Haiku
- **가격**: 비공개 (사용량 기반) - **가격**: 비공개 (사용량 기반)
- **응답 시간**: 2.57초~4.60초 - **응답 시간**: 2.57초~4.60초
- **특징**: - **특징**:
@ -47,7 +77,7 @@
- 과부하 시 불안정 (529 에러) - 과부하 시 불안정 (529 에러)
- **추천 용도**: 복잡한 대화 필요 시 - **추천 용도**: 복잡한 대화 필요 시
### 5. Grok (제외) ### 7. Grok (제외)
- **가격**: $2.00~$3.00 / $10.00~$15.00 - **가격**: $2.00~$3.00 / $10.00~$15.00
- **특징**: - **특징**:
- X/Twitter 실시간 데이터 접근 - X/Twitter 실시간 데이터 접근
@ -69,6 +99,16 @@
3. Mistral Small 3.1: $0.75/$4.00 3. Mistral Small 3.1: $0.75/$4.00
4. Grok: $2.00/$10.00 이상 4. Grok: $2.00/$10.00 이상
### Rate Limit 비교 (무료 티어, 2025-12-02 기준)
| 모델 | RPM | TPM | RPD | 비고 |
|------|-----|-----|-----|------|
| Gemini 2.5 Flash-Lite | 15 | 250K | 1K | 가장 유리 |
| Gemini 2.5 Flash | 10 | 250K | 250 | RPD 낮음 |
| Gemini 2.5 Pro | 2 | 125K | 50 | 가장 제한적 |
**주의**: IR Deck 평가 시 15페이지 이상일 경우 Flash-Lite도 Quota 초과 가능 (종합 1회 + 페이지별 15회 = 16회 호출)
### 응답 품질 특성 ### 응답 품질 특성
- **Mistral**: 가장 상세하고 체계적 (번호 목록, 이모지 활용) - **Mistral**: 가장 상세하고 체계적 (번호 목록, 이모지 활용)
- **GPT-4o-mini**: 균형잡힌 구조적 답변 - **GPT-4o-mini**: 균형잡힌 구조적 답변
@ -81,7 +121,8 @@
1. **메인 모델**: Gemini 2.5 Flash-Lite 1. **메인 모델**: Gemini 2.5 Flash-Lite
- 가장 저렴한 비용 - 가장 저렴한 비용
- 안정적인 성능 - 안정적인 성능
- 무료 tier 활용 - 무료 tier 활용 (RPM 15회)
- **주의**: 15페이지 이상 평가 시 Quota 초과 가능
2. **백업 모델**: GPT-4o-mini 2. **백업 모델**: GPT-4o-mini
- 메인 모델 장애 시 대체 - 메인 모델 장애 시 대체
@ -119,6 +160,18 @@ elif task_type == "fast":
model = "gpt-4o-mini" # 속도 우선 model = "gpt-4o-mini" # 속도 우선
``` ```
## Rate Limit 대응 전략
### 문제 상황
- IR Deck 평가 시 15페이지 이상: Flash-Lite RPM 15회 제한 초과
- 종합 평가 1회 + 페이지별 평가 N회 (N > 14) = 총 15회 이상
### 해결 방안
1. **배치 처리**: 페이지별 평가를 10-15페이지씩 묶어서 처리 (호출 횟수 감소)
2. **Rate Limiting**: 요청 간 간격 제어 (분당 15회 이하 유지)
3. **모델 전환**: Flash-Lite 대신 Flash 사용 (RPM 10회지만 RPD는 낮음)
4. **대기 시간**: 평가 시작 전 30-60초 대기 (이전 요청 쿼터 해제 대기)
## 결론 ## 결론
### 핵심 발견사항 ### 핵심 발견사항
@ -126,14 +179,19 @@ elif task_type == "fast":
2. 각 모델마다 고유한 강점 존재 2. 각 모델마다 고유한 강점 존재
3. 멀티 LLM 전략으로 안정성 확보 필요 3. 멀티 LLM 전략으로 안정성 확보 필요
4. 토큰 제한 설정 시 충분한 여유 필요 (500 토큰 이상) 4. 토큰 제한 설정 시 충분한 여유 필요 (500 토큰 이상)
5. **Rate Limit 고려 필수**: 15페이지 이상 평가 시 Quota 초과 주의
### 향후 고려사항 ### 향후 고려사항
- 정기적인 모델 성능 재평가 - 정기적인 모델 성능 재평가
- 새로운 모델 출시 모니터링 - 새로운 모델 출시 모니터링
- 사용량 기반 비용 최적화 - 사용량 기반 비용 최적화
- 모델별 특화 작업 정의 - 모델별 특화 작업 정의
- Rate Limit 모니터링 및 대응 전략 수립
## 참고 자료 ## 참고 자료
- 테스트 코드: `/test_llm/test_all_for_ro-being.py` - 테스트 코드: `/test_llm/test_all_for_ro-being.py`
- 개별 테스트: `/test_llm/test_*.py` - 개별 테스트: `/test_llm/test_*.py`
- 트러블슈팅: `/DOCS/troubleshooting/250804_happybell80_LLM멀티모델테스트.md` - 트러블슈팅: `/DOCS/troubleshooting/250804_happybell80_LLM멀티모델테스트.md`
- Gemini API Rate Limit: https://ai.dev/usage?tab=rate-limit (2025-12-02 기준)
- Vertex AI 가격 책정: https://docs.cloud.google.com/vertex-ai/generative-ai/pricing?hl=ko