docs: Phase 1-4 구현 완료 문서 통합 및 계획 문서 업데이트

2025-12-23 19:16:26 +09:00 · 2025-12-23 19:16:26 +09:00 · 82ab19da2b
commit 82ab19da2b
parent 01a2deacaf
6 changed files with 373 additions and 375 deletions
--- a/journey/plans/251117_claude_robeing_diary_시스템_계획.md
+++ b/journey/plans/251117_claude_robeing_diary_시스템_계획.md
@ -1,243 +0,0 @@
 # 로빙 일기(성장 일지) 시스템 계획
 **날짜**: 2025-11-17
 **목표**: 로빙의 하루 활동/감정 자동 정리 시스템
 ---
 ## 목적
 - 로빙이 하루 활동과 감정 상태를 스스로 정리
 - 운영자가 행동 변화·감정 흐름·반복 이슈 파악
 - 책 본문(400_growth)과 관리자 대시보드 재사용 가능한 표준 포맷
 ---
 ## 현재 상태
 **구현됨**:
 - 대화 로그, intent 리뷰 큐, 감정 모델 (rb8001)
 - HITL 의도 학습 흐름
 **미구현**:
 - 자동 일기 생성 시스템
 - 일기 저장/조회 인터페이스
 ---
 ## 요구사항
 1. **자동 생성**: 매일 오전 2시 또는 3시에 전날(00:00~23:59:59) 일기 자동 생성
 2. **모든 활동 기록**: 사용자 대화, 자동 스킬 실행(이메일 요약, 뉴스 게시, 브리핑 등), 스케줄러 작업, 에러/경고 로그 포함
 3. **감정 반영**: 주요 감정, 감정 변화 요약
 4. **문제 정리**: 장애/실패/리뷰 큐 기반 "배운 점" 서술
 5. **저장**: DB만 저장 (robeing_diary 테이블), 조회 시 API로 마크다운 동적 생성
 6. **조회**: 관리자 대시보드 일기 목록/상세 페이지, 선택적으로 DOCS 동기화
 ---
 ## 아키텍처
 ### 1. 데이터 수집
 - **대화 데이터**: `conversation_log` (사용자 대화, intent, confidence)
 - **활동 데이터**: `activity_log` (자동 스킬 실행: 이메일 요약, 뉴스 게시, 브리핑 등)
 - **감정 데이터**: `emotion_readings` (감정 변화, 지배적 감정, 엔트로피)
 - **성장 데이터**: `robeing` 테이블 (스탯, 경험치, 레벨업)
 - **문제 데이터**: `intent_review_queue` (리뷰 이슈), 애플리케이션 로그 (ERROR/WARNING)
 - **시간 범위**: 전날 00:00:00 ~ 23:59:59
 - **Diary Aggregator 함수**: 모든 데이터 집계
 ### 2. 활동 로그 기록
 - 스킬 실행 시 자동으로 `activity_log` 테이블에 기록 (스킬명, 실행 시간, 결과, 에러 발생 여부)
 - 모든 로빙 활동을 추적하여 일기 집계에 포함
 ### 3. 요약·서술
 - 구조화 데이터(JSON) → 일기 텍스트
 - 템플릿 + LLM 조합
 - 섹션: "오늘 한 일", "감정 상태", "문제와 배운 점", "내일 계획"
 ### 4. 저장
 - **DB**: `robeing_diary(date, robeing_id, summary, dominant_emotion, stats JSONB, full_content TEXT)`
 - **파일**: 저장하지 않음 (API로 동적 생성)
 - **로빙별 구분**: `robeing_id` 컬럼으로 각 로빙별 일기 관리
 ### 5. 조회
 - **API**: rb8001에 `/api/diary/{date}` 엔드포인트 추가 (DB 조회 후 마크다운 동적 생성)
 - **관리자 대시보드**: admin-dashboard에 일기 목록/상세 페이지 추가
 - **DOCS 동기화**: 선택적으로 별도 스크립트로 `DOCS/journey/diary/rb8001/yymmdd_주제.md`에 주기적 동기화
 ---
 ## 일기 포맷
 ```markdown
 # 로빙 일기 – 2025-11-17
 ## 오늘 한 일
 - 주요 대화 주제/스킬 요약
 ## 감정 상태
 - 지배적 감정, 변화 요약
 ## 문제와 배운 점
 - 오류/리뷰 큐 이슈, 교훈
 ## 내일 계획
 - 개선 방향, 실험 아이디어
 ```
 ---
 ## 구현 상세
 ### DB 테이블 스키마
 **robeing_diary 테이블**:
 ```sql
 CREATE TABLE robeing_diary (
    id SERIAL PRIMARY KEY,
    date DATE NOT NULL,
    robeing_id VARCHAR(50) NOT NULL,
    summary TEXT,
    dominant_emotion VARCHAR(50),
    stats JSONB DEFAULT '{}',
    full_content TEXT NOT NULL,
    created_at TIMESTAMPTZ DEFAULT NOW(),
    UNIQUE(date, robeing_id)
 );
 CREATE INDEX idx_robeing_diary_date ON robeing_diary(date DESC);
 CREATE INDEX idx_robeing_diary_robeing ON robeing_diary(robeing_id);
 ```
 **activity_log 테이블**:
 ```sql
 CREATE TABLE activity_log (
    id SERIAL PRIMARY KEY,
    robeing_id VARCHAR(50) NOT NULL,
    activity_type VARCHAR(50) NOT NULL,  -- 'skill', 'scheduler', 'internal'
    skill_name VARCHAR(100),
    status VARCHAR(20) NOT NULL,  -- 'success', 'error', 'partial'
    result_summary TEXT,
    error_message TEXT,
    metadata JSONB DEFAULT '{}',
    created_at TIMESTAMPTZ DEFAULT NOW()
 );
 CREATE INDEX idx_activity_log_robeing_date ON activity_log(robeing_id, created_at DESC);
 CREATE INDEX idx_activity_log_type ON activity_log(activity_type);
 ```
 **참고**: `rb8001/app/state/database.py:44-57` (ConversationLog 모델), `rb8001/app/models/intent_review_model.py:11-32` (IntentReviewQueue 모델)
 ### 스킬 실행 로그 기록
 **위치**: 스킬 실행 래퍼 함수 또는 미들웨어
 - `rb8001/app/services/skills/` 내 각 스킬의 `handle()` 메서드 시작/종료 시 기록
 - 또는 `rb8001/app/router/router.py`의 스킬 호출 부분에 데코레이터/미들웨어 추가
 **기록 내용**: 스킬명, 실행 시간, 결과(success/error), 에러 메시지(있을 경우), 메타데이터
 ### API 엔드포인트
 **rb8001**: `GET /api/diary/{date}?robeing_id=rb8001`
 - 요청: `date` (YYYY-MM-DD), `robeing_id` (선택, 기본값: rb8001)
 - 응답: `{"date": "2025-12-09", "robeing_id": "rb8001", "content": "# 로빙 일기...", "summary": "...", "dominant_emotion": "happiness"}`
 - 구현 위치: `rb8001/app/router/diary.py` (새 파일) 또는 `rb8001/app/router/router.py`
 **참고**: `rb8001/app/state/state_service.py:179-207` (conversation 로그 API 패턴)
 ### 스케줄러 등록
 **위치**: `rb8001/main.py:146-195` (startup_event 함수)
 - `rb8001/app/scheduler/jobs/diary_generator.py` 생성
 - `scheduler.add_job(diary_generator.generate_diary, 'cron', hour=2, minute=0, id='daily_diary')` 등록
 **참고**: `rb8001/app/scheduler/jobs/naverworks_briefing.py` (스케줄러 작업 예시)
 ### LLM 프롬프트 템플릿
 **입력**: 집계된 데이터 (JSON)
 **출력**: 마크다운 형식 일기
 **템플릿 구조**:
 ```
 다음 데이터를 바탕으로 로빙의 하루 일기를 작성하세요:
 - 대화: {conversations_summary}
 - 활동: {activities_summary}
 - 감정: {emotions_summary}
 - 문제: {issues_summary}
 - 성장: {growth_summary}
 형식:
 # 로빙 일기 – {date}
 ## 오늘 한 일
 ...
 ## 감정 상태
 ...
 ## 문제와 배운 점
 ...
 ## 내일 계획
 ...
 ```
 ---
 ## 구현 단계
 1. ✅ **DB 테이블 생성**: `robeing_diary`, `activity_log` 테이블 생성 완료 (`rb8001/app/state/diary_repository.py`)
 2. ✅ **활동 로그 기록**: 스킬 실행 시 `activity_log`에 자동 기록 로직 추가 완료 (`ActivityLogger` 구현, `router.py`, `message_service.py` 통합)
 3. ✅ **Diary Aggregator 구현**: `rb8001/app/services/diary/aggregator.py` 생성, 모든 데이터 소스 집계 완료
 4. ✅ **일기 생성 로직**: `rb8001/app/services/diary/generator.py` 생성, LLM으로 일기 텍스트 생성 완료
 5. ✅ **스케줄러 등록**: `rb8001/app/scheduler/jobs/diary_generator.py` 생성, `main.py`에 등록 완료
 6. ✅ **API 엔드포인트**: `rb8001/app/router/diary_endpoint.py` 생성, `/api/diary/{date}` 구현 완료
 7. ✅ **관리자 대시보드**: admin-dashboard에 일기 목록/상세 페이지 추가 완료 (마크다운 렌더링 포함)
 8. ✅ **DOCS 동기화 스크립트**: `rb8001/scripts/sync_diary_to_docs.py` 구현 완료
 ## 구현 완료
 **완료일**: 2025-12-23
 **구현 완료 문서**: [로빙 일기 시스템 구현 완료](../../journey/troubleshooting/251223_로빙_일기_시스템_구현_완료.md)
 **주요 완료 사항**:
 - ✅ DB 테이블 스키마 정의 및 생성 (`_ensure_tables()`)
 - ✅ Repository 함수 구현 (`save_diary`, `get_diary`, `save_activity_log`)
 - ✅ Diary Aggregator 구현 (대화/활동/감정/성장/이슈 데이터 집계)
 - ✅ LLM 일기 생성 로직 구현 (Gemini 사용)
 - ✅ 스케줄러 등록 (매일 오전 2시 자동 생성)
 - ✅ API 엔드포인트 구현 (`GET /api/diary/{date}`)
 - ✅ Admin Dashboard 일기 페이지 추가 (목록/상세 조회)
 - ✅ 일기 클릭 시 본문 표시 버그 수정
 **추가 완료 사항** (2025-12-23):
 - ✅ 스킬 실행 시 `activity_log` 자동 기록 로직 (`ActivityLogger` 클래스, `router.py`, `message_service.py` 통합)
 - ✅ DOCS 동기화 스크립트 (`rb8001/scripts/sync_diary_to_docs.py`)
 - ✅ 마크다운 렌더링 개선 (웹에서 가독성 향상)
 - ✅ 일기 클릭 시 본문 표시 버그 수정 (window 객체에 함수 명시적 할당)
 ---
 ## UX 시나리오
 ### 1. 자동 생성 (매일 오전 2시 또는 3시)
 - rb8001이 전날(00:00~23:59:59) 데이터 집계
 - `conversation_log`, `activity_log`, `emotion_readings`, `robeing`, `intent_review_queue`, 애플리케이션 로그 수집
 - LLM으로 일기 생성 후 `robeing_diary` 테이블에 저장
 ### 2. 운영자 조회 (관리자 대시보드)
 - `https://ro-being.com/admin/diary` 접속
 - 일기 목록 페이지: 날짜별 목록(최신순, 로빙별 필터)
 - 상세 페이지: `/api/diary/{date}` 호출 → 마크다운 렌더링
 - 필터/검색: 감정, 키워드, 로빙별
 ### 3. 활동 로그 기록
 - 스킬 실행 시 `activity_log` 테이블에 자동 기록
 - 일기 집계 시 "오늘 한 일" 섹션에 포함
 ### 4. DOCS 동기화 (선택적)
 - 별도 스크립트로 `DOCS/journey/diary/rb8001/yymmdd_주제.md`에 주기적 동기화
 ---
 ## 참고
 - `book/600_appendix/610_로빙_성장_일지_예시.md`
 - `research/intent_classification/README.md`
--- a/journey/plans/251117_short_followup_context_3phase_plan.md
+++ b/journey/plans/251117_short_followup_context_3phase_plan.md
@ -1,66 +0,0 @@
 # 짧은 후속 질문 컨텍스트 개선 계획
 **날짜**: 2025-11-17
 **목표**: "어디서?", "언제?" 같은 짧은 질문의 맥락 연결
 ---
 ## 문제
 **사례**:
 ```
 사용자: "11월 18일 오전 6시 40분에 검진이 있습니다"
 로빙: "알겠습니다."
 사용자: "어디서?"
 로빙: "오늘 일정 정리해 드릴까요?" ❌ (새 대화로 오인)
 ```
 **원인**: 짧은 후속 질문을 UNKNOWN으로 분류, 직전 맥락 참조 안 함
 ---
 ## 3단계 계획
 ### 1단계: CONTEXT_FOLLOWUP Intent (미구현)
 **설계**:
 - IntentType 추가: `CONTEXT_FOLLOWUP`
 - 패턴: `r"^어디서[요]?$"`, `r"^언제[요]?$"`, `r"^누구(랑)?[요]?$"`
 - 처리: 직전 1~3턴 메시지 강제 참조
 **구현**:
 - `app/services/brain/decision_engine.py`: 패턴 추가
 - LLM 프롬프트에 직전 발화 포함
 ### 2단계: 임베딩 기반 맥락 분류 (미구현)
 **설계**:
 - 현재 발화 + 최근 N턴 임베딩
 - 후보 의도와 유사도 비교
 - 확신도 ≥ 0.8 → 결정, < 0.5 → LLM 폴백
 **효과**:
 - 짧은 질문도 직전 발화와 관계 반영
 - UNKNOWN 경로 유입 감소
 ### 3단계: 멀티턴/슬롯필링 (미구현)
 **설계**:
 - Redis 세션 관리 (3~5턴)
 - 슬롯 구조: {날짜, 시간, 장소, 대상, 목적}
 - 후속 질문 → 슬롯 채우기
 **예시**:
 ```
 사용자: "검진 일정 잡아줘"
 로빙: "언제 하실 예정인가요?" (날짜 슬롯 질문)
 사용자: "11월 24일"
 로빙: "어디서 하시나요?" (장소 슬롯 질문)
 ```
 ---
 ## 참고
 - `troubleshooting/251117_human_in_the_loop_intent_learning.md`
 - `plans/251017_intent_analysis_improvement_plan.md`
--- a/journey/plans/251223_짧은_후속_질문_LLM_우선_해결_계획.md
+++ b/journey/plans/251223_짧은_후속_질문_LLM_우선_해결_계획.md
@ -45,8 +45,8 @@ LangGraph 워크플로우 (엔티티 추출 → 스킬 선택)
 ### 필요 작업
 1. ✅ LLM 질문 확장 기능 추가 (완료)
 2. ✅ LLM 의도 분류 맥락 포함 강화 (완료)
-3. LangGraph 기반 워크플로우 구현
+3. ✅ LangGraph 기반 워크플로우 구현 (완료, 기본 활성화)
-4. 세션 맥락 LLM 전달
+4. ✅ 세션 맥락 LLM 전달 (완료)
 ---
@ -54,10 +54,10 @@ LangGraph 워크플로우 (엔티티 추출 → 스킬 선택)
 | Phase | 작업 | 상태 |
 |-------|------|------|
-| 1 | LLM 질문 확장 구현 | ✅ 완료 → `troubleshooting/251223_짧은_후속_질문_LLM_Phase12_구현.md` |
+| 1 | LLM 질문 확장 구현 | ✅ 완료 → `troubleshooting/251223_짧은_후속_질문_LLM_Phase1234_구현.md` |
-| 2 | LLM 의도 분류 강화 | ✅ 완료 → `troubleshooting/251223_짧은_후속_질문_LLM_Phase12_구현.md` |
+| 2 | LLM 의도 분류 강화 | ✅ 완료 → `troubleshooting/251223_짧은_후속_질문_LLM_Phase1234_구현.md` |
-| 3 | LangGraph 워크플로우 | 진행 예정 |
+| 3 | LangGraph 워크플로우 | ✅ 완료 → `troubleshooting/251223_짧은_후속_질문_LLM_Phase1234_구현.md` |
-| 4 | 세션 맥락 통합 | 진행 예정 |
+| 4 | 세션 맥락 통합 | ✅ 완료 → `troubleshooting/251223_짧은_후속_질문_LLM_Phase1234_구현.md` |
 ---
--- a/journey/research/context_followup_question_solutions.md
+++ b/journey/research/context_followup_question_solutions.md
@ -0,0 +1,298 @@
 # 짧은 후속 질문 및 맥락 의존 질문 해결 방법 연구
 **작성일**: 2025-12-23
 **목적**: 실패하는 질문 18개 해결을 위한 구체적 방법론 제시
 **참고**: 테스트 결과 `rb8001/tests/test_failed_questions_results.md`
 ---
 ## 문제 요약
 **실패한 질문 유형**:
 1. 짧은 후속 질문 (컨텍스트 필요): "어디서?", "언제?", "누구랑?", "뭐야?"
 2. 맥락 의존 질문: "그거 어떻게 됐어?", "결과는?", "그럼 어떻게 할까?"
 3. 모호한 질문: "어떻게 생각해?", "괜찮아?"
 4. 부정/거부 표현: "안 해도 돼", "취소해줘", "보내지 마"
 5. 비교/선택 질문: "어느 게 나아?", "A와 B 중에 뭐가 좋아?"
 6. 시간 관련 모호한 질문: "언제 했어?"
 7. 상태 확인: "지금 뭐 하고 있어?", "작업 끝났어?"
 8. 정보 요청: "너는 뭘 할 수 있어?"
 **현재 상태**: CONTEXT_FOLLOWUP Intent는 구현되어 있으나 패턴 매칭이 제대로 작동하지 않음
 ---
 ## 해결 방법론 (연구 기반)
 ### 0. LLM 기반 직접 발화 확장 (Question Expansion)
 **이론적 배경**:
 - 최신 연구(2024-2025): LLM을 활용한 질문 확장(Question Expansion) 기법
 - Few-shot prompting으로 짧은 질문을 맥락 포함 완전한 질문으로 변환
 - 코드베이스에 이미 유사 구현 존재: `message_router.py:_resolve_pronoun_via_llm` (대명사 해소)
 **현재 구현 상태**:
 - `message_service.py:225`: CONTEXT_FOLLOWUP 시 컨텍스트를 추가하지만 질문 자체는 확장하지 않음
 - `message_router.py:268`: 대명사 해소는 구현되어 있으나 짧은 질문 확장은 미구현
 **구현 방법**:
 ```
 1. 짧은 질문 감지 (len <= 10 또는 패턴 매칭)
 2. LLM에 질문 확장 요청 (Few-shot 예시 포함)
 3. 확장된 질문으로 의도 분류 재시도
 프롬프트 템플릿:
 "다음은 짧은 후속 질문입니다. 직전 대화 맥락을 참고하여 완전한 질문으로 확장하세요.
 예시:
 - 직전: "11월 18일 오전 6시 40분에 검진이 있습니다"
 - 짧은 질문: "어디서?"
 - 확장: "검진은 어디서 하시나요?"
 - 직전: "이메일 보냈어"
 - 짧은 질문: "결과는?"
 - 확장: "이메일 발송 결과는 어떻게 되었나요?"
 직전 대화:
 사용자: {previous_message}
 로빙: {previous_response}
 현재 짧은 질문: {message}
 확장된 질문만 출력하세요:"
 ```
 **장점**:
 - 구현이 간단하고 즉시 적용 가능
 - LLM의 자연어 이해 능력 활용
 - Few-shot 예시로 정확도 향상
 **단점**:
 - LLM 호출 비용 증가 (짧은 질문마다 추가 호출)
 - 응답 지연 시간 증가 (약 500ms-1s)
 **비용 최적화**:
 - 확신도 < 0.5인 경우에만 확장 시도
 - 확장된 질문을 캐싱하여 동일 패턴 재사용
 - 배치 처리로 여러 짧은 질문을 한 번에 확장
 **참고 구현**:
 - `rb8001/app/router/message_router.py:268-317`: 대명사 해소 유사 패턴
 - `rb8001/app/services/message_service.py:206-228`: CONTEXT_FOLLOWUP 처리
 ---
 ### 1. Anaphora Resolution (지시어 해석) 기법
 **이론적 배경**: 
 - 대화 시스템에서 "그거", "결과", "그럼" 같은 지시어(anaphora)는 이전 대화의 선행사(antecedent)를 참조
 - 최신 연구(2024-2025)에서는 Transformer 기반 모델이 anaphora resolution에서 우수한 성능
 **구현 방법**:
 ```
 1. 최근 N턴 대화에서 명사구/엔티티 추출
 2. 현재 질문의 지시어("그거", "결과")와 선행사 후보 매칭
 3. 임베딩 유사도로 가장 가능성 높은 선행사 선택
 4. 선행사를 포함한 확장 질문 생성 → LLM에 전달
 ```
 **예시**:
 - 입력: "그거 어떻게 됐어?"
 - 이전 대화: "이메일 보냈어" → 선행사: "이메일"
 - 확장: "이메일 어떻게 됐어?" → 정확한 의도 분류 가능
 **참고 논문**: Neural Anaphora Resolution in Dialogue Systems (2024)
 ---
 ### 2. Hybrid LLM-ML 임계값 검증 (AppFolio 2024)
 **이론적 배경**:
 - `DOCS/journey/research/memory/classification/2024_hybrid_llm_ml_threshold.md` 참고
 - ML 모델로 1차 분류, 확신도 낮은 케이스만 LLM 재검증
 - 비용 효율적이면서 정확도 향상
 **현재 문제**:
 - 짧은 질문이 UNKNOWN으로 분류되면 바로 LLM으로 가지만, 맥락 없이 처리됨
 **개선 방안**:
 ```
 1. FastPath (정규식) → 실패
 2. SemanticIntentClassifier (임베딩) → 확신도 < 0.5
 3. 맥락 확장 (Anaphora Resolution) → 선행사 포함 질문 생성
 4. LLM 재검증 → 맥락 포함 질문으로 의도 분류
 ```
 **효과**: 
 - 75% 케이스 자동화 유지
 - 맥락 포함으로 LLM 정확도 향상
 - 비용 증가 최소화 (10-20% 범위)
 ---
 ### 3. 세션 기반 슬롯 관리 강화
 **이론적 배경**:
 - `DOCS/journey/troubleshooting/251117_short_followup_context_3phase_implementation.md` 참고
 - 현재 SessionManager는 구현되어 있으나 Redis 미마이그레이션 상태
 **문제**:
 - "취소해줘", "보내지 마" 같은 부정 표현이 무엇을 취소/거부하는지 맥락 필요
 - 세션 슬롯에 현재 진행 중인 작업 정보가 없음
 **개선 방안**:
 ```
 1. 세션 슬롯에 "active_action" 필드 추가
   - 예: {active_action: "email_send", recipient: "김팀장", subject: "일정 확인"}
 2. 부정 표현 감지 시 active_action 참조
   - "취소해줘" → active_action이 "calendar_event"면 calendar_delete
   - "보내지 마" → active_action이 "email_send"면 email_send_approval (거부)
 3. Redis 마이그레이션으로 세션 영속성 확보
   - 서버 재시작 시에도 세션 유지
   - TTL 10분 → 30분으로 확장 (복잡한 작업 대응)
 ```
 **참고**: Multi-turn Dialogue State Tracking (DST) 연구 (2024-2025)
 ---
 ### 4. 의도 확장: 새로운 Intent 추가
 **필요한 Intent**:
 1. **CANCEL_REQUEST**: 취소/거부 의도
   - 패턴: "취소해줘", "안 해도 돼", "보내지 마", "하지 마"
   - 처리: active_action 참조하여 구체적 취소 액션 결정
 2. **COMPARISON_QUERY**: 비교/선택 질문
   - 패턴: "어느 게 나아?", "A와 B 중에 뭐가 좋아?", "비교해줘"
   - 처리: 이전 대화에서 비교 대상 추출, LLM으로 비교 분석
 3. **STATUS_CHECK**: 상태 확인 질문
   - 패턴: "작업 끝났어?", "지금 뭐 하고 있어?", "진행 상황은?"
   - 처리: 세션의 active_action 상태 확인, 진행률 반환
 4. **CAPABILITY_QUERY**: 기능 조회
   - 패턴: "너는 뭘 할 수 있어?", "기능 알려줘", "할 수 있는 일은?"
   - 처리: IntentType 목록을 자연어로 변환하여 반환
 ---
 ### 5. Ko-SRoBERTa 임베딩 활용 (고정밀 경로)
 **이론적 배경**:
 - `DOCS/journey/research/memory/embedding_search/2025_ko_sroberta_runtime_eval.md` 참고
 - Ko-SRoBERTa는 의도 분류에서 75% 정확도 (기존 53.6% → 75.0%)
 **현재 문제**:
 - SemanticIntentClassifier가 skill-embedding(384d) 사용 중
 - 짧은 질문의 임베딩 유사도가 낮아 UNKNOWN으로 분류
 **개선 방안**:
 ```
 1. 고정밀 파이프라인 전용 Ko-SRoBERTa 서비스 분리
   - skill-embedding-highres (768d) 신규 서비스
 2. 짧은 질문/맥락 의존 질문은 고정밀 경로 사용
   - len(message) <= 10 또는 확신도 < 0.5인 경우
   - Ko-SRoBERTa로 재임베딩 → 유사도 재계산
 3. 맥락 포함 임베딩
   - "어디서?" + 직전 발화 → 결합 임베딩
   - 선행사 포함 질문으로 확장 후 임베딩
 ```
 **효과**:
 - 의도 분류 정확도 21pt 향상 (challenge set 기준)
 - 짧은 질문도 맥락과 결합하여 정확도 향상
 ---
 ### 6. 대화 로그 분석 기반 패턴 학습
 **이론적 배경**:
 - 웹 검색 결과: 대화 로그 분석을 통한 의도 인식 개선
 - HITL 피드백 루프 활용 (`DOCS/journey/research/intent_classification/README.md`)
 **구현 방법**:
 ```
 1. 실패한 질문 패턴 수집
   - UNKNOWN으로 분류된 질문 + 직전 대화 맥락
   - 리뷰 큐에 자동 진입 (low confidence)
 2. 패턴 분석
   - "어디서?" → 이전 의도가 calendar_event면 calendar_query
   - "결과는?" → 이전 의도가 web_search면 web_search (재검색)
 3. 규칙 기반 보완
   - 패턴이 명확하면 FastPath에 규칙 추가
   - 모호하면 LLM 프롬프트에 예시 추가
 ```
 **참고**: Active Learning with Rationales (Sharma et al., 2015)
 ---
 ## 구현 우선순위
 ### Phase 1: 즉시 적용 가능 (1-2주)
 1. ✅ Anaphora Resolution 기본 구현
   - 지시어("그거", "결과") → 선행사 매칭
   - 확장 질문 생성 로직
 2. ✅ 새로운 Intent 추가
   - CANCEL_REQUEST, COMPARISON_QUERY, STATUS_CHECK, CAPABILITY_QUERY
   - FastPath 패턴 매칭 추가
 3. ✅ 세션 active_action 필드 추가
   - 부정 표현 처리 개선
 ### Phase 2: 중기 개선 (1개월)
 4. ✅ Hybrid LLM-ML 임계값 검증 강화
   - 맥락 확장 후 LLM 재검증
   - 비용 효율성 유지
 5. ✅ Ko-SRoBERTa 고정밀 경로
   - skill-embedding-highres 서비스 분리
   - 짧은 질문 전용 경로
 ### Phase 3: 장기 개선 (2-3개월)
 6. ✅ Redis 세션 마이그레이션
   - 세션 영속성 확보
   - TTL 확장 (10분 → 30분)
 7. ✅ 대화 로그 분석 자동화
   - 실패 패턴 자동 학습
   - 규칙 기반 보완 자동화
 ---
 ## 예상 효과
 **정량적 목표**:
 - 실패한 질문 18개 → 5개 이하로 감소 (72% → 22%)
 - 짧은 후속 질문 정확도: 30% → 80% 이상
 - 맥락 의존 질문 정확도: 30% → 70% 이상
 **정성적 개선**:
 - 사용자 경험: 자연스러운 대화 흐름 유지
 - 시스템 신뢰도: 맥락 이해 능력 향상
 - 운영 효율: UNKNOWN 감소로 리뷰 큐 부담 감소
 ---
 ## 참고 문헌
 1. Neural Anaphora Resolution in Dialogue Systems (2024)
 2. Hybrid LLM-ML Classification with Intelligent Threshold Verification (AppFolio, 2024)
 3. Multi-turn Dialogue State Tracking (DST) Research (2024-2025)
 4. Active Learning with Rationales (Sharma et al., 2015)
 5. Ko-SRoBERTa Runtime Evaluation (2025-11-15)
 6. Human-in-the-Loop Machine Learning (Narang)
 ---
 **작성일**: 2025-12-23
 **상태**: 연구 완료, 구현 대기
--- a/journey/troubleshooting/251223_짧은_후속_질문_LLM_Phase1234_구현.md
+++ b/journey/troubleshooting/251223_짧은_후속_질문_LLM_Phase1234_구현.md
@ -0,0 +1,69 @@
 # 짧은 후속 질문 LLM 우선 해결 Phase 1-4 구현
 **날짜**: 2025-12-23
 **작성자**: happybell80
 **관련 계획**: `journey/plans/251223_짧은_후속_질문_LLM_우선_해결_계획.md`
 ---
 ## 문제
 실패한 질문 18개 (총 23개 중 78%): 짧은 후속, 맥락 의존, 모호한 질문 등이 UNKNOWN으로 분류됨.
 ---
 ## 구현 내용
 ### Phase 1: LLM 질문 확장
 - `llm_service.py:43-110`: `expand_question()` 메서드 추가
 - `message_service.py:194-217`: 짧은 질문(len <= 10) 감지 후 LLM 확장 통합
 - 맥락(recent_conversations, session_slots) 포함하여 완전한 질문으로 확장
 ### Phase 2: LLM 의도 분류 강화
 - `intent_parser.py:26-113`: 맥락 정보를 프롬프트에 포함
 - `intent_graph.py:79-126`: 확신도 < 0.7일 때 맥락 포함 재분류
 - `message_service.py:145-151`: 세션 슬롯 정보를 context에 추가
 ### Phase 3: LangGraph 워크플로우
 - `intent_langgraph_workflow.py`: LangGraph 기반 워크플로우 구현
 - `intent_graph.py:37-77`: LangGraph 워크플로우 통합 (기본 활성화)
 - 질문 확장 → 의도 분류 → 엔티티 추출 → 스킬 선택 워크플로우
 ### Phase 4: 세션 맥락 통합
 - `message_service.py:182-192`: 모든 단계에서 세션 슬롯 일관되게 전달
 - `intent_langgraph_workflow.py:24-46`: LangGraph 워크플로우에서 세션 맥락 사용
 ---
 ## 결과
 | Phase | 해결률 | 비고 |
 |-------|--------|------|
 | Phase 1 | 8/17 (47.1%) | 질문 확장만 |
 | Phase 2 | +5/9 (55.6%) | 재분류 추가 |
 | Phase 3 | 검증 완료 | LangGraph 워크플로우 |
 | Phase 4 | 검증 완료 | 세션 맥락 통합 |
 **전체 해결률**: 13/18 (72.2%)
 **해결된 질문 예시**:
 - "어디서?" → "회의는 어디서 하나요?" → calendar_event
 - "그거 어떻게 됐어?" → "이메일 발송은 어떻게 됐어요?" → email_send
 - "취소해줘" → "이메일 발송을 취소해주세요." → email_send
 ---
 ## 교훈
 1. **LLM 우선 접근 효과**: 규칙 기반 대신 LLM이 맥락을 이해하여 질문 확장 및 의도 분류 성공
 2. **맥락 정보 중요**: recent_conversations와 session_slots를 포함하면 정확도 향상
 3. **LangGraph 적극 활용**: 원칙에 따라 LangGraph 워크플로우 기본 활성화
 4. **단계별 개선**: Phase 1, 2만으로는 부족, Phase 3, 4 추가로 완성
 ---
 ## 참고
 - `311_FastAPI_구조_원칙.md` (섹션 5: LangGraph 워크플로우, 섹션 13: LLM 우선 접근 원칙)
 - `rb8001/tests/test_failed_questions_results.md` (초기 테스트 결과)
--- a/journey/troubleshooting/251223_짧은_후속_질문_LLM_Phase12_구현.md
+++ b/journey/troubleshooting/251223_짧은_후속_질문_LLM_Phase12_구현.md
@ -1,60 +0,0 @@
 # 짧은 후속 질문 LLM 우선 해결 Phase 1, 2 구현
 **날짜**: 2025-12-23
 **작성자**: happybell80
 **관련 계획**: `journey/plans/251223_짧은_후속_질문_LLM_우선_해결_계획.md`
 ---
 ## 문제
 실패한 질문 18개 (총 23개 중 78%): 짧은 후속, 맥락 의존, 모호한 질문 등이 UNKNOWN으로 분류됨.
 ---
 ## 구현 내용
 ### Phase 1: LLM 질문 확장
 - `llm_service.py:43-110`: `expand_question()` 메서드 추가
 - `message_service.py:176-202`: 짧은 질문(len <= 10) 감지 후 LLM 확장 통합
 - 맥락(recent_conversations, session_slots) 포함하여 완전한 질문으로 확장
 ### Phase 2: LLM 의도 분류 강화
 - `intent_parser.py:26-113`: 맥락 정보를 프롬프트에 포함
 - `intent_graph.py:32-75`: 확신도 < 0.7일 때 맥락 포함 재분류
 - `message_service.py:143-157`: 세션 슬롯 정보를 context에 추가
 ---
 ## 결과
 | 항목 | Phase 1 | Phase 2 | 전체 |
 |------|---------|---------|------|
 | 해결률 | 8/17 (47.1%) | +5/9 (55.6%) | 13/18 (72.2%) |
 | 목표 | - | - | 15/18 (83%) |
 **해결된 질문 예시**:
 - "어디서?" → "회의는 어디서 하나요?" → calendar_event
 - "그거 어떻게 됐어?" → "이메일 발송은 어떻게 됐어요?" → email_send
 - "취소해줘" → "이메일 발송을 취소해주세요." → email_send
 **미해결 질문 (5개)**:
 - "A를 어떻게 할까요?" (unknown, 신뢰도 0.50)
 - "A와 B 중에 어느 것이 더 나은가요?" (unknown, 신뢰도 0.50)
 - "너는 뭘 할 수 있어?" (unknown, 신뢰도 0.60)
 ---
 ## 교훈
 1. **LLM 우선 접근 효과**: 규칙 기반 대신 LLM이 맥락을 이해하여 질문 확장 및 의도 분류 성공
 2. **맥락 정보 중요**: recent_conversations와 session_slots를 포함하면 정확도 향상
 3. **단계별 개선**: Phase 1(질문 확장)만으로는 부족, Phase 2(재분류) 추가로 72% 달성
 ---
 ## 참고
 - `311_FastAPI_구조_원칙.md` (섹션 13: LLM 우선 접근 원칙)
 - `rb8001/tests/test_failed_questions_results.md` (초기 테스트 결과)