docs: LLM 모델 비교 분석 문서를 research 폴더로 이동하고 Gemini API rate limit 정보 추가

2025-12-01 21:34:29 +09:00 · 2025-12-01 21:34:29 +09:00 · 49f4687111
commit 49f4687111
parent d5f84f90f0
1 changed files with 65 additions and 7 deletions
--- a/journey/ideas/250804_LLM_모델_비교_분석.md
+++ b/journey/ideas/250804_LLM_모델_비교_분석.md
@ -1,4 +1,7 @@
-# LLM 모델 비교 분석 (2025년 8월)
+# LLM 모델 비교 분석
 **최종 업데이트**: 2025-12-02  
 **초기 조사**: 2025-08-04
 ## 개요
 로빙 프로젝트를 위한 멀티 LLM 전략 수립을 위해 주요 LLM 모델들의 성능, 비용, 품질을 비교 분석했습니다.
@ -13,6 +16,10 @@
 ### 1. Gemini 2.5 Flash-Lite ⭐ 
 - **가격**: $0.10 / $0.40 (입력/출력 per 1M tokens)
 - **응답 시간**: 2.04초~2.76초
 - **Rate Limit (무료 티어, 2025-12-02 기준)**:
  - RPM (Requests Per Minute): 15회
  - TPM (Tokens Per Minute): 250K
  - RPD (Requests Per Day): 1K
 - **특징**: 
  - 2025년 8월 1일 정식 출시
  - 가장 저렴한 가격
@ -20,7 +27,30 @@
  - 무료 tier 활용 가능
 - **추천 용도**: 메인 모델
-### 2. GPT-4o-mini
+### 2. Gemini 2.5 Flash
 - **가격**: $0.30 / $2.50 (입력/출력 per 1M tokens)
 - **Rate Limit (무료 티어, 2025-12-02 기준)**:
  - RPM: 10회
  - TPM: 250K
  - RPD: 250회
 - **특징**:
  - Flash-Lite보다 약간 높은 가격이지만 더 나은 성능
  - 일일 요청 제한(RPD)이 Flash-Lite보다 낮음 (250 vs 1K)
 - **추천 용도**: Flash-Lite 대안, 더 높은 성능 필요 시
 ### 3. Gemini 2.5 Pro
 - **가격**: $1.25 / $10.00 (입력/출력 per 1M tokens)
 - **Rate Limit (무료 티어, 2025-12-02 기준)**:
  - RPM: 2회
  - TPM: 125K
  - RPD: 50회
 - **특징**:
  - 가장 제한적인 무료 티어 (RPM 2회)
  - 가장 높은 가격
  - 최고 성능
 - **추천 용도**: 무료 티어에서는 대량 호출 부적합, 유료 플랜 필요
 ### 4. GPT-4o-mini
 - **가격**: $0.15 / $0.60
 - **응답 시간**: 1.78초~4.68초
 - **특징**: 
@ -29,7 +59,7 @@
  - OpenAI의 안정성
 - **추천 용도**: 백업 모델
-### 3. Mistral Small 3.1
+### 5. Mistral Small 3.1
 - **가격**: $0.75 / $4.00
 - **응답 시간**: 1.49초~3.02초
 - **특징**: 
@ -38,7 +68,7 @@
  - 토큰 효율적 (평균 200~300 토큰)
 - **추천 용도**: 품질 우선 시
-### 4. Claude 3.5 Haiku
+### 6. Claude 3.5 Haiku
 - **가격**: 비공개 (사용량 기반)
 - **응답 시간**: 2.57초~4.60초
 - **특징**: 
@ -47,7 +77,7 @@
  - 과부하 시 불안정 (529 에러)
 - **추천 용도**: 복잡한 대화 필요 시
-### 5. Grok (제외)
+### 7. Grok (제외)
 - **가격**: $2.00~$3.00 / $10.00~$15.00
 - **특징**: 
  - X/Twitter 실시간 데이터 접근
@ -69,6 +99,16 @@
 3. Mistral Small 3.1: $0.75/$4.00
 4. Grok: $2.00/$10.00 이상
 ### Rate Limit 비교 (무료 티어, 2025-12-02 기준)
 | 모델 | RPM | TPM | RPD | 비고 |
 |------|-----|-----|-----|------|
 | Gemini 2.5 Flash-Lite | 15 | 250K | 1K | 가장 유리 |
 | Gemini 2.5 Flash | 10 | 250K | 250 | RPD 낮음 |
 | Gemini 2.5 Pro | 2 | 125K | 50 | 가장 제한적 |
 **주의**: IR Deck 평가 시 15페이지 이상일 경우 Flash-Lite도 Quota 초과 가능 (종합 1회 + 페이지별 15회 = 16회 호출)
 ### 응답 품질 특성
 - **Mistral**: 가장 상세하고 체계적 (번호 목록, 이모지 활용)
 - **GPT-4o-mini**: 균형잡힌 구조적 답변
@ -81,7 +121,8 @@
 1. **메인 모델**: Gemini 2.5 Flash-Lite
   - 가장 저렴한 비용
   - 안정적인 성능
-   - 무료 tier 활용
+   - 무료 tier 활용 (RPM 15회)
   - **주의**: 15페이지 이상 평가 시 Quota 초과 가능
 2. **백업 모델**: GPT-4o-mini
   - 메인 모델 장애 시 대체
@ -119,6 +160,18 @@ elif task_type == "fast":
    model = "gpt-4o-mini"            # 속도 우선
 ```
 ## Rate Limit 대응 전략
 ### 문제 상황
 - IR Deck 평가 시 15페이지 이상: Flash-Lite RPM 15회 제한 초과
 - 종합 평가 1회 + 페이지별 평가 N회 (N > 14) = 총 15회 이상
 ### 해결 방안
 1. **배치 처리**: 페이지별 평가를 10-15페이지씩 묶어서 처리 (호출 횟수 감소)
 2. **Rate Limiting**: 요청 간 간격 제어 (분당 15회 이하 유지)
 3. **모델 전환**: Flash-Lite 대신 Flash 사용 (RPM 10회지만 RPD는 낮음)
 4. **대기 시간**: 평가 시작 전 30-60초 대기 (이전 요청 쿼터 해제 대기)
 ## 결론
 ### 핵심 발견사항
@ -126,14 +179,19 @@ elif task_type == "fast":
 2. 각 모델마다 고유한 강점 존재
 3. 멀티 LLM 전략으로 안정성 확보 필요
 4. 토큰 제한 설정 시 충분한 여유 필요 (500 토큰 이상)
 5. **Rate Limit 고려 필수**: 15페이지 이상 평가 시 Quota 초과 주의
 ### 향후 고려사항
 - 정기적인 모델 성능 재평가
 - 새로운 모델 출시 모니터링
 - 사용량 기반 비용 최적화
 - 모델별 특화 작업 정의
 - Rate Limit 모니터링 및 대응 전략 수립
 ## 참고 자료
 - 테스트 코드: `/test_llm/test_all_for_ro-being.py`
 - 개별 테스트: `/test_llm/test_*.py`
- 트러블슈팅: `/DOCS/troubleshooting/250804_happybell80_LLM멀티모델테스트.md`
+- 트러블슈팅: `/DOCS/troubleshooting/250804_happybell80_LLM멀티모델테스트.md`
 - Gemini API Rate Limit: https://ai.dev/usage?tab=rate-limit (2025-12-02 기준)
 - Vertex AI 가격 책정: https://docs.cloud.google.com/vertex-ai/generative-ai/pricing?hl=ko