research: 임베딩 검색/분류 논문 4개 추가 (memory/)

embedding_search/: - 2025_k_llmmeans_llm_centroids: LLM centroid 클러스터링 - 2024_deep_embedding_clustering_stability: 샘플 안정성 기반 학습 classification/: - 2024_hybrid_llm_ml_threshold: ML+LLM 하이브리드 임계값 검증 - 2024_bert_embedding_feature_selection: BERT+특성선택 분류 개선 로빙 적용: coldmail 필터 정확도 75%→85%+ 개선 방안 🤖 Generated with [Claude Code](https://claude.com/claude-code) Co-Authored-By: Claude <noreply@anthropic.com>
2025-10-16 13:41:53 +09:00 · 2025-10-16 13:41:53 +09:00 · b8647b1c76
commit b8647b1c76
parent 94e71da55e
5 changed files with 219 additions and 1 deletions
--- a/research/memory/README.md
+++ b/research/memory/README.md
@ -91,6 +91,23 @@

 ---

+## 11. 임베딩 검색 및 분류 (Embedding Search & Classification)
+
+### embedding_search/
+- **2025_k_llmmeans_llm_centroids.md**: LLM 생성 요약을 centroid로 사용한 클러스터링
+- **2024_deep_embedding_clustering_stability.md**: 샘플 안정성 기반 클러스터 중심 임베딩 학습
+
+### classification/
+- **2024_hybrid_llm_ml_threshold.md**: ML + LLM 결합으로 임계값 근처 케이스 지능적 검증
+- **2024_bert_embedding_feature_selection.md**: BERT 임베딩 + 특성 선택으로 분류 정확도 향상
+
+**로빙 적용**:
+- Coldmail 필터 임베딩 정확도 개선 (75% → 85%+)
+- 기억 시스템 벡터 검색 최적화
+- 임계값 동적 조정으로 precision-recall 최적화
+
+---
+
 ## 결론

-정보 엔트로피, 베이지안 추론, 그리고 현대적 기억 모델들은 로빙 프로젝트가 추구하는 '존재형 에이전트'를 구현하는 데 강력한 이론적 및 기술적 도구를 제공합니다. 예측 코딩과 정보 이론을 통해 **기억의 효율성**을 높이고, 베이지안 뇌 가설과 자유 에너지 원리를 통해 **학습과 성장의 동기**를 부여하며, 지식 그래프와 신뢰도 평가를 통해 **기억의 깊이와 신뢰성**을 더할 수 있습니다. 이러한 연구들을 바탕으로 로빙의 기억 시스템을 지속적으로 발전시켜 나갈 것입니다.
+정보 엔트로피, 베이지안 추론, 그리고 현대적 기억 모델들은 로빙 프로젝트가 추구하는 '존재형 에이전트'를 구현하는 데 강력한 이론적 및 기술적 도구를 제공합니다. 예측 코딩과 정보 이론을 통해 **기억의 효율성**을 높이고, 베이지안 뇌 가설과 자유 에너지 원리를 통해 **학습과 성장의 동기**를 부여하며, 지식 그래프와 신뢰도 평가를 통해 **기억의 깊이와 신뢰성**을 더할 수 있습니다. 임베딩 검색 및 분류 연구를 통해 **메모리 검색과 의도 분류의 정확성**을 향상시킬 수 있습니다. 이러한 연구들을 바탕으로 로빙의 기억 시스템을 지속적으로 발전시켜 나갈 것입니다.
--- a/research/memory/classification/2024_bert_embedding_feature_selection.md
+++ b/research/memory/classification/2024_bert_embedding_feature_selection.md
@ -0,0 +1,52 @@
+# BERT Embedding with Feature Selection for Classification
+
+**저자**: Leveraging LLMs for optimised feature selection
+**출판**: ScienceDirect (2024년 6월)
+**링크**: https://www.sciencedirect.com/science/article/pii/S2666920X24001590
+
+---
+
+## 핵심 기여
+
+BERT 임베딩에 특성 선택(feature selection)을 적용하여 분류 정확도 향상:
+- **기존**: BERT 임베딩 직접 사용 (85% 정확도)
+- **제안**: 임베딩 전/후 특성 선택 적용
+- **효과**: 88% 정확도 달성 (3%p 향상)
+
+---
+
+## 주요 내용
+
+### Two-Stage Feature Selection
+1. **Pre-embedding**: 원본 텍스트 특성 필터링 (불필요 단어 제거)
+2. **Post-embedding**: 임베딩 차원 중 중요 차원만 선택
+3. 최종 분류기 학습 (BERT Classifier)
+
+### Graduate Employment Classification
+- 구조화된 데이터 + 텍스트 결합
+- BERT 임베딩으로 텍스트 특성 추출
+- 특성 선택으로 차원 축소 + 성능 향상
+
+---
+
+## 로빙 프로젝트 적용
+
+### Coldmail 임베딩 차원 최적화
+- **현재**: multilingual-MiniLM 384차원 전체 사용
+- **적용**:
+  - coldmail 도메인에서 중요한 차원만 선택 (384 → 100-150차원)
+  - "투자", "IR", "제안" 관련 의미를 강하게 표현하는 차원 우선
+- **효과**:
+  - centroid 유사도 정확도 향상 (75% → 80%+)
+  - 검색 속도 개선 (차원 축소)
+
+### 기억 시스템 임베딩
+- **현재**: 모든 대화를 384차원 임베딩으로 저장
+- **적용**: 사용자별 중요 차원 학습 (사용자 A는 기술 관련 차원 우선)
+- **효과**: 개인화된 메모리 검색 정확도 향상
+
+---
+
+## 참고
+
+251014_claude_coldmail_filter_tokenization_issue.md - 임베딩 정확도 75% 한계 해결
--- a/research/memory/classification/2024_hybrid_llm_ml_threshold.md
+++ b/research/memory/classification/2024_hybrid_llm_ml_threshold.md
@ -0,0 +1,52 @@
+# Hybrid LLM-ML Classification with Intelligent Threshold Verification
+
+**저자**: AppFolio Engineering
+**출판**: 2024년 1월
+**링크**: https://engineering.appfolio.com/appfolio-engineering/2024/1/23/enhancing-machine-learning-workflows-with-large-language-models-a-hybrid-approach
+
+---
+
+## 핵심 기여
+
+ML 모델과 LLM을 결합하여 임계값 근처 케이스를 지능적으로 검증:
+- **문제**: 고정 임계값은 precision-recall 트레이드오프 발생
+- **제안**: 임계값 근처 케이스만 LLM으로 재검증
+- **효과**: 75% 케이스 자동화 (기존 미만 케이스), precision 유지
+
+---
+
+## 주요 내용
+
+### Ensemble 접근
+1. 기존 ML 모델로 1차 분류 + confidence score
+2. confidence < threshold인 케이스를 LLM에게 전달
+3. LLM이 컨텍스트 기반 재검증
+4. 최종 분류 결정
+
+### 임계값 전략
+- **고정 임계값 문제**: 너무 높으면 recall 낮음, 너무 낮으면 precision 낮음
+- **Hybrid 해결**: LLM이 임계값 근처 애매한 케이스만 처리
+- **비용 효율**: 전체의 10-20%만 LLM 사용으로 비용 절감
+
+---
+
+## 로빙 프로젝트 적용
+
+### Coldmail 하이브리드 필터
+- **현재**: Stage 1 (임베딩 0.6 이하) → Stage 2 (LLM)
+- **문제**: 파인티처 메일 (0.28 < 0.34) Stage 1 탈락 → Stage 2 도달 실패
+- **적용**:
+  - Stage 1 임계값 완화 (0.4 이하 PASS)
+  - 0.4-0.6 사이만 LLM으로 재검증
+- **효과**: recall 향상 (누락 방지), API 비용 10-20% 범위 유지
+
+### 감정 분류
+- **현재**: LLM 직접 호출 (모든 메시지)
+- **적용**: 단순 감정(긍정/부정)은 ONNX 모델, 복잡한 감정만 LLM
+- **효과**: 응답 속도 향상, 비용 절감
+
+---
+
+## 참고
+
+251014_claude_coldmail_filter_tokenization_issue.md - Stage 1 임계값 조정 필요성
--- a/research/memory/embedding_search/2024_deep_embedding_clustering_stability.md
+++ b/research/memory/embedding_search/2024_deep_embedding_clustering_stability.md
@ -0,0 +1,48 @@
+# Deep Embedding Clustering Driven by Sample Stability (DECS)
+
+**저자**: (arXiv 논문)
+**출판**: arXiv:2401.15989 (2024년 1월)
+**링크**: https://arxiv.org/abs/2401.15989
+
+---
+
+## 핵심 기여
+
+샘플 안정성 기반으로 클러스터 중심 임베딩 학습:
+- **문제**: 기존 딥 클러스터링은 pseudo target 의존, 불안정한 클러스터 할당
+- **제안**: 샘플과 모든 centroid 간 결정론적 관계 학습
+- **효과**: 샘플을 해당 클러스터로 당기고 다른 클러스터에서 멀어지게 함
+
+---
+
+## 주요 내용
+
+### Sample Stability 개념
+- 각 샘플이 속한 클러스터와의 거리는 최소화
+- 다른 클러스터와의 거리는 최대화
+- 전체 centroid 관계를 동시 학습
+
+### Cluster-Oriented Embedding
+- 단순 유사도 기반이 아닌 클러스터 구조 자체를 학습
+- Pseudo label 없이 안정적 클러스터링
+- End-to-end 학습 가능
+
+---
+
+## 로빙 프로젝트 적용
+
+### Coldmail Centroid 학습
+- **현재**: 고정된 80개 샘플 평균으로 centroid 생성 (정적)
+- **적용**: Slack 피드백 데이터로 centroid를 동적 학습
+- **효과**: "회사소개서"가 coldmail/normal 양쪽에서 나타나는 문제 해결 (샘플 안정성 기반 구분)
+
+### 사용자별 의도 클러스터링
+- **현재**: 제로샷 의도 분류 (고정 카테고리)
+- **적용**: 사용자별 대화 패턴을 클러스터링하여 개인화된 의도 분류
+- **효과**: 사용자마다 다른 "긴급" 의미 학습 (예: 개발자 vs 비즈니스)
+
+---
+
+## 참고
+
+251014_claude_coldmail_filter_tokenization_issue.md - centroid 한계 극복 가능
--- a/research/memory/embedding_search/2025_k_llmmeans_llm_centroids.md
+++ b/research/memory/embedding_search/2025_k_llmmeans_llm_centroids.md
@ -0,0 +1,49 @@
+# k-LLMmeans: Summaries as Centroids for Interpretable and Scalable LLM-Based Text Clustering
+
+**저자**: (arXiv 논문)
+**출판**: arXiv:2502.09667v1 (2025년 2월)
+**링크**: https://arxiv.org/html/2502.09667v1
+
+---
+
+## 핵심 기여
+
+LLM 생성 요약을 centroid로 사용하여 텍스트 클러스터링 수행:
+- **기존 방식**: 임베딩 벡터 평균을 centroid로 사용 (해석 불가, 로컬 최소값 문제)
+- **제안 방식**: LLM이 클러스터를 요약한 텍스트를 centroid로 사용
+- **효과**: 로컬 최소값 탈출, 의미적으로 일관된 클러스터 생성
+
+---
+
+## 주요 내용
+
+### LLM-Informed Centroids
+- 각 클러스터를 LLM이 요약 생성 → 요약 텍스트를 centroid로 사용
+- 단순 벡터 평균보다 의미적 해석 가능성 향상
+- 확장성: 대규모 데이터셋에도 적용 가능
+
+### 알고리즘
+1. 초기 클러스터 할당 (k-means)
+2. LLM이 각 클러스터 샘플 기반 요약 생성
+3. 요약 텍스트 임베딩을 새 centroid로 사용
+4. 재할당 및 반복
+
+---
+
+## 로빙 프로젝트 적용
+
+### Coldmail 필터 개선
+- **현재**: DB에 저장된 고정 centroid (coldmail/normal)
+- **적용**: Slack 피드백으로 수집된 실제 coldmail을 LLM이 요약 → 동적 centroid 생성
+- **효과**: 파인티처 같은 실제 패턴 반영, 정확도 75% → 85%+ 개선
+
+### 기억 시스템
+- **현재**: ChromaDB 벡터 검색 (유사도 기반)
+- **적용**: 사용자 대화 클러스터를 LLM이 요약 → "이번 주 주요 관심사" 같은 해석 가능한 메모리
+- **효과**: 단순 유사도 검색에서 의미 기반 컨텍스트 제공으로 전환
+
+---
+
+## 참고
+
+coldmail 임베딩 필터 정확도 한계 (75%) 문제 해결 가능성 제시