diff --git a/300_architecture/390_human_in_the_loop_intent_learning.md b/300_architecture/390_human_in_the_loop_intent_learning.md index 7a3d4ff..14ce260 100644 --- a/300_architecture/390_human_in_the_loop_intent_learning.md +++ b/300_architecture/390_human_in_the_loop_intent_learning.md @@ -1,15 +1,16 @@ # Human-in-the-loop 의도 학습/리뷰 큐 아키텍처 **작성일**: 2025-11-16 -**수정일**: 2025-11-16 (rb8001 intent 리뷰 큐/피드백 1차 구현 정리) +**수정일**: 2025-11-17 (LLM-in-the-Loop 자동 평가 방식 추가) --- ## 1. 목표 1. rb8001에서 **모든 의도 분석 결과를 구조화된 로그로 남기고**, 나중에 재학습/분석에 활용할 수 있게 한다. -2. 모델이 헷갈리는 케이스·에러·사용자 부정 피드백만 골라 **리뷰 큐(intent_review_queue)** 로 보내서 human-in-the-loop 라벨링을 가능하게 한다. -3. 프론트/슬랙에서 최소 클릭(좋아요/싫어요)으로 피드백을 수집하고, 이를 **의도 로그/리뷰 큐와 자연스럽게 연결**한다. +2. 모델이 헷갈리는 케이스·에러·사용자 부정 피드백만 골라 **리뷰 큐(intent_review_queue)** 로 보낸다. +3. **LLM-in-the-Loop**: LLM이 매일 대화 로그를 평가·라벨링하고, 그 결과로 prototype을 재계산해 자동 개선하는 방식 (Human 대신 LLM 사용). +4. 프론트/슬랙에서 최소 클릭(좋아요/싫어요)으로 피드백을 수집하고, 이를 **의도 로그/리뷰 큐와 자연스럽게 연결**한다. --- @@ -57,7 +58,7 @@ - `user_feedback` (up/down/wrong 등) - `error` (bool) - `status` (`pending`/`confirmed`/`corrected`) - - `true_intent` (라벨링 완료 후 사람이 채운 값) + - `true_intent` (라벨링 완료 후 LLM 또는 사람이 채운 값) > **원칙**: > - 리뷰 큐는 **“라벨링 대상 샘플”만 모아 두는 얇은 테이블**이다. @@ -128,9 +129,9 @@ ## 5. 향후 확장 포인트 -1. **리뷰 큐 라벨링/조회 API** - - `status='pending'` 행만 필터링하는 관리자용 엔드포인트 추가. - - 사람이 `true_intent`를 입력하고 `status='confirmed'/'corrected'`로 변경하는 라벨링 플로우 구축. +1. **LLM 자동 라벨링 (매일 평가)** + - LLM이 매일 대화 로그를 평가하여 `true_intent`를 자동으로 라벨링하고 `status='confirmed'/'corrected'`로 설정. + - 사람이 수동으로 검토/수정할 수 있는 관리자용 엔드포인트도 유지. 2. **재학습/재시드 배치 연동** - `IntentReviewQueue`에서 검수 완료된 샘플만 모아서 Ko-SRoBERTa prototype/Naive Bayes 시드 스크립트 입력으로 사용. - “신규 검수 샘플 N개 + 일정 주기” 조건에서만 재시드/배포하도록 가드 추가.