DOCS/research/memory/classification/2024_hybrid_llm_ml_threshold.md
Claude-51124 b8647b1c76 research: 임베딩 검색/분류 논문 4개 추가 (memory/)
embedding_search/:
- 2025_k_llmmeans_llm_centroids: LLM centroid 클러스터링
- 2024_deep_embedding_clustering_stability: 샘플 안정성 기반 학습

classification/:
- 2024_hybrid_llm_ml_threshold: ML+LLM 하이브리드 임계값 검증
- 2024_bert_embedding_feature_selection: BERT+특성선택 분류 개선

로빙 적용: coldmail 필터 정확도 75%→85%+ 개선 방안

🤖 Generated with [Claude Code](https://claude.com/claude-code)

Co-Authored-By: Claude <noreply@anthropic.com>
2025-10-16 13:41:53 +09:00

1.8 KiB

Hybrid LLM-ML Classification with Intelligent Threshold Verification

저자: AppFolio Engineering 출판: 2024년 1월 링크: https://engineering.appfolio.com/appfolio-engineering/2024/1/23/enhancing-machine-learning-workflows-with-large-language-models-a-hybrid-approach


핵심 기여

ML 모델과 LLM을 결합하여 임계값 근처 케이스를 지능적으로 검증:

  • 문제: 고정 임계값은 precision-recall 트레이드오프 발생
  • 제안: 임계값 근처 케이스만 LLM으로 재검증
  • 효과: 75% 케이스 자동화 (기존 미만 케이스), precision 유지

주요 내용

Ensemble 접근

  1. 기존 ML 모델로 1차 분류 + confidence score
  2. confidence < threshold인 케이스를 LLM에게 전달
  3. LLM이 컨텍스트 기반 재검증
  4. 최종 분류 결정

임계값 전략

  • 고정 임계값 문제: 너무 높으면 recall 낮음, 너무 낮으면 precision 낮음
  • Hybrid 해결: LLM이 임계값 근처 애매한 케이스만 처리
  • 비용 효율: 전체의 10-20%만 LLM 사용으로 비용 절감

로빙 프로젝트 적용

Coldmail 하이브리드 필터

  • 현재: Stage 1 (임베딩 0.6 이하) → Stage 2 (LLM)
  • 문제: 파인티처 메일 (0.28 < 0.34) Stage 1 탈락 → Stage 2 도달 실패
  • 적용:
    • Stage 1 임계값 완화 (0.4 이하 PASS)
    • 0.4-0.6 사이만 LLM으로 재검증
  • 효과: recall 향상 (누락 방지), API 비용 10-20% 범위 유지

감정 분류

  • 현재: LLM 직접 호출 (모든 메시지)
  • 적용: 단순 감정(긍정/부정)은 ONNX 모델, 복잡한 감정만 LLM
  • 효과: 응답 속도 향상, 비용 절감

참고

251014_claude_coldmail_filter_tokenization_issue.md - Stage 1 임계값 조정 필요성