- 7-8월 초기 구축 문서 12개를 _archive/troubleshooting/2025_07-08_initial_setup/로 이동 - book/300_architecture/390_human_in_the_loop_intent_learning.md를 journey/research/intent_classification/로 이동 (개발 여정 문서) - 빈 폴더 제거 (journey/assets/*)
3.7 KiB
3.7 KiB
LLM 모델 비교 분석 (2025년 8월)
개요
로빙 프로젝트를 위한 멀티 LLM 전략 수립을 위해 주요 LLM 모델들의 성능, 비용, 품질을 비교 분석했습니다.
테스트 환경
- 테스트 도구:
/home/happybell/projects/ivada/test_llm/test_all_for_ro-being.py - 로빙 시스템 프롬프트 적용
- 한국어 테스트 케이스 사용
모델별 상세 분석
1. Gemini 2.5 Flash-Lite ⭐
- 가격: $0.10 / $0.40 (입력/출력 per 1M tokens)
- 응답 시간: 2.04초~2.76초
- 특징:
- 2025년 8월 1일 정식 출시
- 가장 저렴한 가격
- 안정적인 성능
- 무료 tier 활용 가능
- 추천 용도: 메인 모델
2. GPT-4o-mini
- 가격: $0.15 / $0.60
- 응답 시간: 1.78초~4.68초
- 특징:
- 균형잡힌 응답 품질
- 빠른 초기 응답
- OpenAI의 안정성
- 추천 용도: 백업 모델
3. Mistral Small 3.1
- 가격: $0.75 / $4.00
- 응답 시간: 1.49초~3.02초
- 특징:
- 가장 빠른 응답 속도
- 상세하고 체계적인 답변
- 토큰 효율적 (평균 200~300 토큰)
- 추천 용도: 품질 우선 시
4. Claude 3.5 Haiku
- 가격: 비공개 (사용량 기반)
- 응답 시간: 2.57초~4.60초
- 특징:
- 높은 응답 품질
- 대화형 응답
- 과부하 시 불안정 (529 에러)
- 추천 용도: 복잡한 대화 필요 시
5. Grok (제외)
- 가격: $2.00~$3.00 / $10.00~$15.00
- 특징:
- X/Twitter 실시간 데이터 접근
- 너무 비싼 가격
- grok-3-mini는 빈 응답 문제
- 결론: 특수 목적 외 비추천
성능 비교
응답 속도 순위
- Mistral Small 3.1: 1.49초
- GPT-4o-mini: 1.78초
- Gemini 2.5 Flash-Lite: 2.04초
- Claude 3.5 Haiku: 2.57초
비용 효율성 순위
- Gemini 2.5 Flash-Lite: $0.10/$0.40
- GPT-4o-mini: $0.15/$0.60
- Mistral Small 3.1: $0.75/$4.00
- Grok: $2.00/$10.00 이상
응답 품질 특성
- Mistral: 가장 상세하고 체계적 (번호 목록, 이모지 활용)
- GPT-4o-mini: 균형잡힌 구조적 답변
- Gemini: 간결하면서도 핵심 포착 (표 활용)
- Claude: 대화형, 공감적 응답
로빙 프로젝트 추천 전략
멀티 LLM 전략
-
메인 모델: Gemini 2.5 Flash-Lite
- 가장 저렴한 비용
- 안정적인 성능
- 무료 tier 활용
-
백업 모델: GPT-4o-mini
- 메인 모델 장애 시 대체
- 균형잡힌 성능
-
보조 모델: Mistral Small 3.1
- 고품질 응답 필요 시
- 빠른 응답 필요 시
환경변수 설정
# .env 파일
GEMINI_API_KEY=(Gemini API 키)
OPENAI_API_KEY=(OpenAI API 키)
MISTRAL_API_KEY=(Mistral API 키)
ANTHROPIC_API_KEY=(Anthropic API 키)
# XAI_API_KEY=(xAI API 키) # 비용 문제로 제외
사용 예시
# 모델 선택 로직
if task_type == "general":
model = "gemini-2.5-flash-lite" # 기본
elif task_type == "quality":
model = "mistral-small-latest" # 품질 우선
elif task_type == "fast":
model = "gpt-4o-mini" # 속도 우선
결론
핵심 발견사항
- Gemini 2.5 Flash-Lite가 비용 대비 최고 효율
- 각 모델마다 고유한 강점 존재
- 멀티 LLM 전략으로 안정성 확보 필요
- 토큰 제한 설정 시 충분한 여유 필요 (500 토큰 이상)
향후 고려사항
- 정기적인 모델 성능 재평가
- 새로운 모델 출시 모니터링
- 사용량 기반 비용 최적화
- 모델별 특화 작업 정의
참고 자료
- 테스트 코드:
/test_llm/test_all_for_ro-being.py - 개별 테스트:
/test_llm/test_*.py - 트러블슈팅:
/DOCS/troubleshooting/250804_happybell80_LLM멀티모델테스트.md