250804 LLM 멀티 모델 테스트

오후 9시 54분

LLM API 통합 테스트

문제상황:

로빙 프로젝트에서 Gemini 외에 다른 LLM 모델들을 백업으로 사용하기 위해 테스트 필요
Mistral, OpenAI, Claude, xAI(Grok) API 키 획득 및 테스트

해결과정:

API 키 환경변수 설정

# .env 파일에 추가
MISTRAL_API_KEY=4wJvIPVgvQeGMnvPTjHia8gPQW5RZK7q
OPENAI_API_KEY=sk-proj-VcaRxJcMq2dv9nIaWGxcj9vkeCDYvtpHeDlQ2tqoJMm...
ANTHROPIC_API_KEY=sk-ant-api03-XsUfN5agl0EhqfioqmYMCWlte8MepbwWR3GT...
XAI_API_KEY=xai-2WKqqTgiGGE9POKvEwbFqhymfRel50ask4tyhxuW2S2TFf5XA...

개별 테스트 스크립트 작성
- test_mistral.py: Mistral Small 3.1 테스트
- test_openai.py: GPT-4o-mini 테스트
- test_claude.py: Claude 3.5 Haiku 테스트
- test_grok.py: Grok 3 테스트
통합 비교 테스트 (test_all_for_ro-being.py)
- 로빙 시스템 프롬프트 적용
- 한국어 감정 지원 시나리오로 테스트
- 응답 시간, 토큰 사용량, 품질 비교

테스트 결과:

모델                 응답시간    상태       토큰사용
Gemini 2.5 Flash     2.36초     ✅ 성공    N/A
Mistral Small 3.1    2.12초     ✅ 성공    223
GPT-4o-mini          1.78초     ✅ 성공    256
Claude 3.5 Haiku     3.80초     ✅ 성공    459
Grok 3               2.41초     ✅ 성공    298

분석:

가장 빠른 응답: GPT-4o-mini (1.78초)
가장 토큰 효율적: Mistral Small 3.1 (223 토큰)
가장 품질 높은 응답: Claude 3.5 Haiku (상세하고 공감적)
균형잡힌 선택: Gemini 2.5 Flash (기존 주력)

최종 모델 선택:

메인: Gemini Pro (기존 사용 중)
백업: GPT-4o-mini (효율적, 빠른 응답)
보조: Mistral Small 3.1 (한국어 자연스러움)

교훈:

멀티 LLM 전략으로 안정성 확보
각 모델의 장단점을 파악하여 상황별 활용
API 키는 반드시 .env 파일로 관리
통합 테스트로 객관적 비교 가능

2.0 KiB Raw Blame History

250804 LLM 멀티 모델 테스트

오후 9시 54분

LLM API 통합 테스트

2.0 KiB

Raw Blame History