Claude-51124 22557e7132 docs: 오래된 트러블슈팅 아카이브 및 구조 정리

- 7-8월 초기 구축 문서 12개를 _archive/troubleshooting/2025_07-08_initial_setup/로 이동
- book/300_architecture/390_human_in_the_loop_intent_learning.md를 journey/research/intent_classification/로 이동 (개발 여정 문서)
- 빈 폴더 제거 (journey/assets/*)

2025-11-17 14:06:05 +09:00

3.7 KiB

Raw Blame History

LLM 모델 비교 분석 (2025년 8월)

개요

로빙 프로젝트를 위한 멀티 LLM 전략 수립을 위해 주요 LLM 모델들의 성능, 비용, 품질을 비교 분석했습니다.

테스트 환경

테스트 도구: /home/happybell/projects/ivada/test_llm/test_all_for_ro-being.py
로빙 시스템 프롬프트 적용
한국어 테스트 케이스 사용

모델별 상세 분석

1. Gemini 2.5 Flash-Lite ⭐

가격: $0.10 / $0.40 (입력/출력 per 1M tokens)
응답 시간: 2.04초~2.76초
특징:
- 2025년 8월 1일 정식 출시
- 가장 저렴한 가격
- 안정적인 성능
- 무료 tier 활용 가능
추천 용도: 메인 모델

2. GPT-4o-mini

가격: $0.15 / $0.60
응답 시간: 1.78초~4.68초
특징:
- 균형잡힌 응답 품질
- 빠른 초기 응답
- OpenAI의 안정성
추천 용도: 백업 모델

3. Mistral Small 3.1

가격: $0.75 / $4.00
응답 시간: 1.49초~3.02초
특징:
- 가장 빠른 응답 속도
- 상세하고 체계적인 답변
- 토큰 효율적 (평균 200~300 토큰)
추천 용도: 품질 우선 시

4. Claude 3.5 Haiku

가격: 비공개 (사용량 기반)
응답 시간: 2.57초~4.60초
특징:
- 높은 응답 품질
- 대화형 응답
- 과부하 시 불안정 (529 에러)
추천 용도: 복잡한 대화 필요 시

5. Grok (제외)

가격: $2.00~$3.00 / $10.00~$15.00
특징:
- X/Twitter 실시간 데이터 접근
- 너무 비싼 가격
- grok-3-mini는 빈 응답 문제
결론: 특수 목적 외 비추천

성능 비교

응답 속도 순위

Mistral Small 3.1: 1.49초
GPT-4o-mini: 1.78초
Gemini 2.5 Flash-Lite: 2.04초
Claude 3.5 Haiku: 2.57초

비용 효율성 순위

Gemini 2.5 Flash-Lite: $0.10/$0.40
GPT-4o-mini: $0.15/$0.60
Mistral Small 3.1: $0.75/$4.00
Grok: $2.00/$10.00 이상

응답 품질 특성

Mistral: 가장 상세하고 체계적 (번호 목록, 이모지 활용)
GPT-4o-mini: 균형잡힌 구조적 답변
Gemini: 간결하면서도 핵심 포착 (표 활용)
Claude: 대화형, 공감적 응답

로빙 프로젝트 추천 전략

멀티 LLM 전략

메인 모델: Gemini 2.5 Flash-Lite
- 가장 저렴한 비용
- 안정적인 성능
- 무료 tier 활용
백업 모델: GPT-4o-mini
- 메인 모델 장애 시 대체
- 균형잡힌 성능
보조 모델: Mistral Small 3.1
- 고품질 응답 필요 시
- 빠른 응답 필요 시

환경변수 설정

# .env 파일
GEMINI_API_KEY=(Gemini API 키)
OPENAI_API_KEY=(OpenAI API 키)
MISTRAL_API_KEY=(Mistral API 키)
ANTHROPIC_API_KEY=(Anthropic API 키)
# XAI_API_KEY=(xAI API 키) # 비용 문제로 제외

사용 예시

# 모델 선택 로직
if task_type == "general":
    model = "gemini-2.5-flash-lite"  # 기본
elif task_type == "quality":
    model = "mistral-small-latest"   # 품질 우선
elif task_type == "fast":
    model = "gpt-4o-mini"            # 속도 우선

결론

핵심 발견사항

Gemini 2.5 Flash-Lite가 비용 대비 최고 효율
각 모델마다 고유한 강점 존재
멀티 LLM 전략으로 안정성 확보 필요
토큰 제한 설정 시 충분한 여유 필요 (500 토큰 이상)

향후 고려사항

정기적인 모델 성능 재평가
새로운 모델 출시 모니터링
사용량 기반 비용 최적화
모델별 특화 작업 정의

참고 자료

테스트 코드: /test_llm/test_all_for_ro-being.py
개별 테스트: /test_llm/test_*.py
트러블슈팅: /DOCS/troubleshooting/250804_happybell80_LLM멀티모델테스트.md

3.7 KiB Raw Blame History

LLM 모델 비교 분석 (2025년 8월)

개요

테스트 환경

모델별 상세 분석

1. Gemini 2.5 Flash-Lite ⭐

2. GPT-4o-mini

3. Mistral Small 3.1

4. Claude 3.5 Haiku

5. Grok (제외)

성능 비교

응답 속도 순위

비용 효율성 순위

응답 품질 특성

로빙 프로젝트 추천 전략

멀티 LLM 전략

환경변수 설정

사용 예시

결론

핵심 발견사항

향후 고려사항

참고 자료

3.7 KiB

Raw Blame History