DOCS/troubleshooting/250804_happybell80_LLM멀티모델테스트.md
happybell80 4c9aa6ab6d docs: 민감한 정보 제거 및 NAVER WORKS 구현 상태 업데이트
- API 키 및 JWT Secret 등 민감한 정보를 플레이스홀더로 교체
- NAVER WORKS 이메일 확장 문서 상태를 '구현 완료'로 업데이트
- Provider 패턴 구현 및 DB 스키마 수정 내용 반영
- 토큰 갱신 테스트 성공 결과 문서화
2025-09-19 01:46:23 +09:00

3.2 KiB

250804 LLM 멀티 모델 테스트

오후 9시 54분

LLM API 통합 테스트

문제상황:

  • 로빙 프로젝트에서 Gemini 외에 다른 LLM 모델들을 백업으로 사용하기 위해 테스트 필요
  • Mistral, OpenAI, Claude, xAI(Grok) API 키 획득 및 테스트

해결과정:

  1. API 키 환경변수 설정

    # .env 파일에 추가
    MISTRAL_API_KEY=(Mistral API 키)
    OPENAI_API_KEY=(OpenAI API 키)
    ANTHROPIC_API_KEY=(Anthropic API 키)
    XAI_API_KEY=(xAI API 키)
    
  2. 개별 테스트 스크립트 작성

    • test_mistral.py: Mistral Small 3.1 테스트
    • test_openai.py: GPT-4o-mini 테스트
    • test_claude.py: Claude 3.5 Haiku 테스트
    • test_grok.py: Grok 3 테스트
  3. 통합 비교 테스트 (test_all_for_ro-being.py)

    • 로빙 시스템 프롬프트 적용
    • 한국어 감정 지원 시나리오로 테스트
    • 응답 시간, 토큰 사용량, 품질 비교

테스트 결과:

모델                 응답시간    상태       토큰사용
Gemini 2.5 Flash     2.36초     ✅ 성공    N/A
Mistral Small 3.1    2.12초     ✅ 성공    223
GPT-4o-mini          1.78초     ✅ 성공    256
Claude 3.5 Haiku     3.80초     ✅ 성공    459
Grok 3               2.41초     ✅ 성공    298

분석:

  • 가장 빠른 응답: GPT-4o-mini (1.78초)
  • 가장 토큰 효율적: Mistral Small 3.1 (223 토큰)
  • 가장 품질 높은 응답: Claude 3.5 Haiku (상세하고 공감적)
  • 균형잡힌 선택: Gemini 2.5 Flash (기존 주력)

최종 모델 선택:

  1. 메인: Gemini Pro (기존 사용 중)
  2. 백업: GPT-4o-mini (효율적, 빠른 응답)
  3. 보조: Mistral Small 3.1 (한국어 자연스러움)

교훈:

  • 멀티 LLM 전략으로 안정성 확보
  • 각 모델의 장단점을 파악하여 상황별 활용
  • API 키는 반드시 .env 파일로 관리
  • 통합 테스트로 객관적 비교 가능

오후 10시 30분

Grok 모델 추가 테스트 및 Gemini 2.5 Flash-Lite 발견

추가 테스트:

  1. Grok 모델 정식 이름 확인

    • grok-4-0709, grok-3, grok-3-mini, grok-2-1212 등
    • grok-3-mini와 grok-4는 빈 응답 반환 문제 발생
    • 실제 작동 모델: grok-3 ($3/$15), grok-2-1212 ($2/$10)
  2. Gemini 2.5 Flash-Lite 테스트

    • 2025년 8월 1일 정식 출시된 최신 경량 모델
    • 가격: $0.10/$0.40 (가장 저렴!)
    • 성능: 2.04초~2.76초로 안정적
  3. 토큰 제한 조정

    • 초기 200토큰 제한으로 답변 잘림 현상 발생
    • 500토큰으로 증가 후 전체 답변 확인

최종 비용 효율적 모델 추천:

  1. 메인: Gemini 2.5 Flash-Lite ($0.10/$0.40) 가장 저렴!
  2. 백업: GPT-4o-mini ($0.15/$0.60)
  3. 보조: Mistral Small 3.1 ($0.75/$4)

Grok 제외 이유:

  • 너무 비싼 가격 (최소 $2/$10)
  • grok-3-mini ($0.30/$0.50)는 빈 응답 문제
  • X/Twitter 실시간 데이터가 필요한 경우에만 고려

기술적 발견:

  • 모델별 응답 품질 차이 확인
  • Mistral: 가장 상세하고 체계적 (이모지 포함)
  • GPT-4o-mini: 균형잡힌 구조적 답변
  • Gemini: 간결하면서도 핵심 포착
  • Claude: 대화형 응답, 과부하 시 불안정