- API 키 및 JWT Secret 등 민감한 정보를 플레이스홀더로 교체 - NAVER WORKS 이메일 확장 문서 상태를 '구현 완료'로 업데이트 - Provider 패턴 구현 및 DB 스키마 수정 내용 반영 - 토큰 갱신 테스트 성공 결과 문서화
3.7 KiB
3.7 KiB
LLM 모델 비교 분석 (2025년 8월)
개요
로빙 프로젝트를 위한 멀티 LLM 전략 수립을 위해 주요 LLM 모델들의 성능, 비용, 품질을 비교 분석했습니다.
테스트 환경
- 테스트 도구:
/home/happybell/projects/ivada/test_llm/test_all_for_ro-being.py - 로빙 시스템 프롬프트 적용
- 한국어 테스트 케이스 사용
모델별 상세 분석
1. Gemini 2.5 Flash-Lite ⭐
- 가격: $0.10 / $0.40 (입력/출력 per 1M tokens)
- 응답 시간: 2.04초~2.76초
- 특징:
- 2025년 8월 1일 정식 출시
- 가장 저렴한 가격
- 안정적인 성능
- 무료 tier 활용 가능
- 추천 용도: 메인 모델
2. GPT-4o-mini
- 가격: $0.15 / $0.60
- 응답 시간: 1.78초~4.68초
- 특징:
- 균형잡힌 응답 품질
- 빠른 초기 응답
- OpenAI의 안정성
- 추천 용도: 백업 모델
3. Mistral Small 3.1
- 가격: $0.75 / $4.00
- 응답 시간: 1.49초~3.02초
- 특징:
- 가장 빠른 응답 속도
- 상세하고 체계적인 답변
- 토큰 효율적 (평균 200~300 토큰)
- 추천 용도: 품질 우선 시
4. Claude 3.5 Haiku
- 가격: 비공개 (사용량 기반)
- 응답 시간: 2.57초~4.60초
- 특징:
- 높은 응답 품질
- 대화형 응답
- 과부하 시 불안정 (529 에러)
- 추천 용도: 복잡한 대화 필요 시
5. Grok (제외)
- 가격: $2.00~$3.00 / $10.00~$15.00
- 특징:
- X/Twitter 실시간 데이터 접근
- 너무 비싼 가격
- grok-3-mini는 빈 응답 문제
- 결론: 특수 목적 외 비추천
성능 비교
응답 속도 순위
- Mistral Small 3.1: 1.49초
- GPT-4o-mini: 1.78초
- Gemini 2.5 Flash-Lite: 2.04초
- Claude 3.5 Haiku: 2.57초
비용 효율성 순위
- Gemini 2.5 Flash-Lite: $0.10/$0.40
- GPT-4o-mini: $0.15/$0.60
- Mistral Small 3.1: $0.75/$4.00
- Grok: $2.00/$10.00 이상
응답 품질 특성
- Mistral: 가장 상세하고 체계적 (번호 목록, 이모지 활용)
- GPT-4o-mini: 균형잡힌 구조적 답변
- Gemini: 간결하면서도 핵심 포착 (표 활용)
- Claude: 대화형, 공감적 응답
로빙 프로젝트 추천 전략
멀티 LLM 전략
-
메인 모델: Gemini 2.5 Flash-Lite
- 가장 저렴한 비용
- 안정적인 성능
- 무료 tier 활용
-
백업 모델: GPT-4o-mini
- 메인 모델 장애 시 대체
- 균형잡힌 성능
-
보조 모델: Mistral Small 3.1
- 고품질 응답 필요 시
- 빠른 응답 필요 시
환경변수 설정
# .env 파일
GEMINI_API_KEY=(Gemini API 키)
OPENAI_API_KEY=(OpenAI API 키)
MISTRAL_API_KEY=(Mistral API 키)
ANTHROPIC_API_KEY=(Anthropic API 키)
# XAI_API_KEY=(xAI API 키) # 비용 문제로 제외
사용 예시
# 모델 선택 로직
if task_type == "general":
model = "gemini-2.5-flash-lite" # 기본
elif task_type == "quality":
model = "mistral-small-latest" # 품질 우선
elif task_type == "fast":
model = "gpt-4o-mini" # 속도 우선
결론
핵심 발견사항
- Gemini 2.5 Flash-Lite가 비용 대비 최고 효율
- 각 모델마다 고유한 강점 존재
- 멀티 LLM 전략으로 안정성 확보 필요
- 토큰 제한 설정 시 충분한 여유 필요 (500 토큰 이상)
향후 고려사항
- 정기적인 모델 성능 재평가
- 새로운 모델 출시 모니터링
- 사용량 기반 비용 최적화
- 모델별 특화 작업 정의
참고 자료
- 테스트 코드:
/test_llm/test_all_for_ro-being.py - 개별 테스트:
/test_llm/test_*.py - 트러블슈팅:
/DOCS/troubleshooting/250804_happybell80_LLM멀티모델테스트.md