- 7-8월 초기 구축 문서 12개를 _archive/troubleshooting/2025_07-08_initial_setup/로 이동 - book/300_architecture/390_human_in_the_loop_intent_learning.md를 journey/research/intent_classification/로 이동 (개발 여정 문서) - 빈 폴더 제거 (journey/assets/*)
95 lines
3.2 KiB
Markdown
95 lines
3.2 KiB
Markdown
# 250804 LLM 멀티 모델 테스트
|
|
|
|
## 오후 9시 54분
|
|
|
|
### LLM API 통합 테스트
|
|
|
|
**문제상황**:
|
|
- 로빙 프로젝트에서 Gemini 외에 다른 LLM 모델들을 백업으로 사용하기 위해 테스트 필요
|
|
- Mistral, OpenAI, Claude, xAI(Grok) API 키 획득 및 테스트
|
|
|
|
**해결과정**:
|
|
|
|
1. **API 키 환경변수 설정**
|
|
```
|
|
# .env 파일에 추가
|
|
MISTRAL_API_KEY=(Mistral API 키)
|
|
OPENAI_API_KEY=(OpenAI API 키)
|
|
ANTHROPIC_API_KEY=(Anthropic API 키)
|
|
XAI_API_KEY=(xAI API 키)
|
|
```
|
|
|
|
2. **개별 테스트 스크립트 작성**
|
|
- test_mistral.py: Mistral Small 3.1 테스트
|
|
- test_openai.py: GPT-4o-mini 테스트
|
|
- test_claude.py: Claude 3.5 Haiku 테스트
|
|
- test_grok.py: Grok 3 테스트
|
|
|
|
3. **통합 비교 테스트 (test_all_for_ro-being.py)**
|
|
- 로빙 시스템 프롬프트 적용
|
|
- 한국어 감정 지원 시나리오로 테스트
|
|
- 응답 시간, 토큰 사용량, 품질 비교
|
|
|
|
**테스트 결과**:
|
|
```
|
|
모델 응답시간 상태 토큰사용
|
|
Gemini 2.5 Flash 2.36초 ✅ 성공 N/A
|
|
Mistral Small 3.1 2.12초 ✅ 성공 223
|
|
GPT-4o-mini 1.78초 ✅ 성공 256
|
|
Claude 3.5 Haiku 3.80초 ✅ 성공 459
|
|
Grok 3 2.41초 ✅ 성공 298
|
|
```
|
|
|
|
**분석**:
|
|
- **가장 빠른 응답**: GPT-4o-mini (1.78초)
|
|
- **가장 토큰 효율적**: Mistral Small 3.1 (223 토큰)
|
|
- **가장 품질 높은 응답**: Claude 3.5 Haiku (상세하고 공감적)
|
|
- **균형잡힌 선택**: Gemini 2.5 Flash (기존 주력)
|
|
|
|
**최종 모델 선택**:
|
|
1. **메인**: Gemini Pro (기존 사용 중)
|
|
2. **백업**: GPT-4o-mini (효율적, 빠른 응답)
|
|
3. **보조**: Mistral Small 3.1 (한국어 자연스러움)
|
|
|
|
**교훈**:
|
|
- 멀티 LLM 전략으로 안정성 확보
|
|
- 각 모델의 장단점을 파악하여 상황별 활용
|
|
- API 키는 반드시 .env 파일로 관리
|
|
- 통합 테스트로 객관적 비교 가능
|
|
|
|
## 오후 10시 30분
|
|
|
|
### Grok 모델 추가 테스트 및 Gemini 2.5 Flash-Lite 발견
|
|
|
|
**추가 테스트**:
|
|
|
|
1. **Grok 모델 정식 이름 확인**
|
|
- grok-4-0709, grok-3, grok-3-mini, grok-2-1212 등
|
|
- grok-3-mini와 grok-4는 빈 응답 반환 문제 발생
|
|
- 실제 작동 모델: grok-3 ($3/$15), grok-2-1212 ($2/$10)
|
|
|
|
2. **Gemini 2.5 Flash-Lite 테스트**
|
|
- 2025년 8월 1일 정식 출시된 최신 경량 모델
|
|
- 가격: $0.10/$0.40 (가장 저렴!)
|
|
- 성능: 2.04초~2.76초로 안정적
|
|
|
|
3. **토큰 제한 조정**
|
|
- 초기 200토큰 제한으로 답변 잘림 현상 발생
|
|
- 500토큰으로 증가 후 전체 답변 확인
|
|
|
|
**최종 비용 효율적 모델 추천**:
|
|
1. **메인**: Gemini 2.5 Flash-Lite ($0.10/$0.40) ⭐ 가장 저렴!
|
|
2. **백업**: GPT-4o-mini ($0.15/$0.60)
|
|
3. **보조**: Mistral Small 3.1 ($0.75/$4)
|
|
|
|
**Grok 제외 이유**:
|
|
- 너무 비싼 가격 (최소 $2/$10)
|
|
- grok-3-mini ($0.30/$0.50)는 빈 응답 문제
|
|
- X/Twitter 실시간 데이터가 필요한 경우에만 고려
|
|
|
|
**기술적 발견**:
|
|
- 모델별 응답 품질 차이 확인
|
|
- Mistral: 가장 상세하고 체계적 (이모지 포함)
|
|
- GPT-4o-mini: 균형잡힌 구조적 답변
|
|
- Gemini: 간결하면서도 핵심 포착
|
|
- Claude: 대화형 응답, 과부하 시 불안정 |