DOCS/journey/troubleshooting/251126_intent_retraining_verification.md

3.4 KiB

의도 분류기 재학습 효과 검증

작성일: 2025-11-26
작성자: Auto (Claude)
관련 문서:

  • 251126_intent_3step_db_bayesian_integration_complete.md - DB/베이지안 통합 완료
  • DOCS/journey/research/intent_classification/retraining_pipeline_plan.md - 재학습 파이프라인 설계

1. 재학습 실행

1.1 데이터 현황

IntentReviewQueue 통계:

  • 전체: 98개
  • confirmed: 61개
  • corrected: 37개
  • true_intent 설정됨: 97개

Intent별 라벨링된 데이터:

  • calendar_query: 29개
  • calendar_event: 22개
  • unknown: 26개
  • web_search: 10개
  • document_analysis: 5개
  • summarize: 4개
  • email_send: 1개

1.2 재학습 실행

Naive Bayes 재학습:

  • document_analysis → 'doc' 라벨: 5개 메시지 반영
  • email_send → 'email' 라벨: 1개 메시지 반영
  • 총 6개 메시지 반영 완료

Prototype 재계산:

  • intent_prototypes 테이블 스키마 확인 필요 (향후 구현)

2. 재학습 효과 검증

2.1 Naive Bayes 재학습 효과

테스트 메시지:

  • "이 문서 분석해줘" → doc 확률: 0.943 (94.3%)
  • "이메일 보내줘" → email 확률: 0.982 (98.2%)

결과: 재학습된 Naive Bayes가 문서/이메일 의도를 높은 신뢰도로 구분

2.2 실제 의도 분석 정확도

테스트 케이스:

  1. "이 문서 분석해줘" → document_analysis (confidence: 0.94) ✓
  2. "이메일 보내줘" → email_send (confidence: 0.95) ✓
  3. "12월 10일 일정 등록해줘" → calendar_event (confidence: 0.90) ✓

전체 정확도: 100% (3/3)

2.3 Baseline 메트릭

재학습 전:

  • 정확도: 97.94%
  • 리뷰 큐 진입률: 6.65%
  • F1-scores:
    • calendar_query: 0.964
    • calendar_event: 0.957
    • web_search: 1.000
    • document_analysis: 1.000
    • email_send: 1.000
    • summarize: 1.000
    • unknown: 1.000

재학습 후:

  • 정확도: 97.94% (동일, 재학습 데이터가 적어서 큰 변화 없음)
  • 리뷰 큐 진입률: 6.65% (동일)

3. 개선 효과 분석

3.1 즉시 효과

  • Naive Bayes 재학습 완료 (6개 메시지 반영)
  • 실제 의도 분석 테스트에서 100% 정확도
  • 높은 confidence 값으로 안정적인 분류

3.2 장기 효과 예상

  • 데이터 축적: 더 많은 라벨링 데이터가 쌓이면 정확도 향상 예상
  • Prototype 개선: intent_prototypes 재계산으로 임베딩 기반 분류 개선
  • 리뷰 큐 진입률 감소: 학습이 진행될수록 불확실한 케이스 감소 예상

3.3 한계점

  • 재학습 데이터 부족: document_analysis 5개, email_send 1개로 적음
  • Prototype 재계산 미완료: intent_prototypes 테이블 스키마 확인 필요
  • 장기 효과 측정 필요: 시간이 지나면서 데이터가 축적되어야 개선 효과 명확히 확인 가능

4. 다음 단계

  1. 더 많은 라벨링 데이터 수집: IntentReviewQueue에 더 많은 confirmed/corrected 항목 필요
  2. Prototype 재계산 완료: intent_prototypes 테이블 스키마 확인 후 재계산 로직 완성
  3. 정기적 재학습: 주기적으로 재학습 스크립트 실행하여 지속적 개선
  4. 장기 모니터링: 시간이 지나면서 정확도 및 리뷰 큐 진입률 변화 추적

작성 완료: 2025-11-26
검증 결과: 재학습이 완료되었고, 실제 의도 분석에서 높은 정확도를 보이고 있습니다.