DOCS/research/memory/classification/2024_bert_embedding_feature_selection.md
Claude-51124 b8647b1c76 research: 임베딩 검색/분류 논문 4개 추가 (memory/)
embedding_search/:
- 2025_k_llmmeans_llm_centroids: LLM centroid 클러스터링
- 2024_deep_embedding_clustering_stability: 샘플 안정성 기반 학습

classification/:
- 2024_hybrid_llm_ml_threshold: ML+LLM 하이브리드 임계값 검증
- 2024_bert_embedding_feature_selection: BERT+특성선택 분류 개선

로빙 적용: coldmail 필터 정확도 75%→85%+ 개선 방안

🤖 Generated with [Claude Code](https://claude.com/claude-code)

Co-Authored-By: Claude <noreply@anthropic.com>
2025-10-16 13:41:53 +09:00

1.7 KiB

BERT Embedding with Feature Selection for Classification

저자: Leveraging LLMs for optimised feature selection 출판: ScienceDirect (2024년 6월) 링크: https://www.sciencedirect.com/science/article/pii/S2666920X24001590


핵심 기여

BERT 임베딩에 특성 선택(feature selection)을 적용하여 분류 정확도 향상:

  • 기존: BERT 임베딩 직접 사용 (85% 정확도)
  • 제안: 임베딩 전/후 특성 선택 적용
  • 효과: 88% 정확도 달성 (3%p 향상)

주요 내용

Two-Stage Feature Selection

  1. Pre-embedding: 원본 텍스트 특성 필터링 (불필요 단어 제거)
  2. Post-embedding: 임베딩 차원 중 중요 차원만 선택
  3. 최종 분류기 학습 (BERT Classifier)

Graduate Employment Classification

  • 구조화된 데이터 + 텍스트 결합
  • BERT 임베딩으로 텍스트 특성 추출
  • 특성 선택으로 차원 축소 + 성능 향상

로빙 프로젝트 적용

Coldmail 임베딩 차원 최적화

  • 현재: multilingual-MiniLM 384차원 전체 사용
  • 적용:
    • coldmail 도메인에서 중요한 차원만 선택 (384 → 100-150차원)
    • "투자", "IR", "제안" 관련 의미를 강하게 표현하는 차원 우선
  • 효과:
    • centroid 유사도 정확도 향상 (75% → 80%+)
    • 검색 속도 개선 (차원 축소)

기억 시스템 임베딩

  • 현재: 모든 대화를 384차원 임베딩으로 저장
  • 적용: 사용자별 중요 차원 학습 (사용자 A는 기술 관련 차원 우선)
  • 효과: 개인화된 메모리 검색 정확도 향상

참고

251014_claude_coldmail_filter_tokenization_issue.md - 임베딩 정확도 75% 한계 해결