# Hybrid LLM-ML Classification with Intelligent Threshold Verification

**저자**: AppFolio Engineering
**출판**: 2024년 1월
**링크**: https://engineering.appfolio.com/appfolio-engineering/2024/1/23/enhancing-machine-learning-workflows-with-large-language-models-a-hybrid-approach

---

## 핵심 기여

ML 모델과 LLM을 결합하여 임계값 근처 케이스를 지능적으로 검증:
- **문제**: 고정 임계값은 precision-recall 트레이드오프 발생
- **제안**: 임계값 근처 케이스만 LLM으로 재검증
- **효과**: 75% 케이스 자동화 (기존 미만 케이스), precision 유지

---

## 주요 내용

### Ensemble 접근
1. 기존 ML 모델로 1차 분류 + confidence score
2. confidence < threshold인 케이스를 LLM에게 전달
3. LLM이 컨텍스트 기반 재검증
4. 최종 분류 결정

### 임계값 전략
- **고정 임계값 문제**: 너무 높으면 recall 낮음, 너무 낮으면 precision 낮음
- **Hybrid 해결**: LLM이 임계값 근처 애매한 케이스만 처리
- **비용 효율**: 전체의 10-20%만 LLM 사용으로 비용 절감

---

## 로빙 프로젝트 적용

### Coldmail 하이브리드 필터
- **현재**: Stage 1 (임베딩 0.6 이하) → Stage 2 (LLM)
- **문제**: 파인티처 메일 (0.28 < 0.34) Stage 1 탈락 → Stage 2 도달 실패
- **적용**:
  - Stage 1 임계값 완화 (0.4 이하 PASS)
  - 0.4-0.6 사이만 LLM으로 재검증
- **효과**: recall 향상 (누락 방지), API 비용 10-20% 범위 유지

### 감정 분류
- **현재**: LLM 직접 호출 (모든 메시지)
- **적용**: 단순 감정(긍정/부정)은 ONNX 모델, 복잡한 감정만 LLM
- **효과**: 응답 속도 향상, 비용 절감

---

## 참고

251014_claude_coldmail_filter_tokenization_issue.md - Stage 1 임계값 조정 필요성