# BERT Embedding with Feature Selection for Classification

**저자**: Leveraging LLMs for optimised feature selection
**출판**: ScienceDirect (2024년 6월)
**링크**: https://www.sciencedirect.com/science/article/pii/S2666920X24001590

---

## 핵심 기여

BERT 임베딩에 특성 선택(feature selection)을 적용하여 분류 정확도 향상:
- **기존**: BERT 임베딩 직접 사용 (85% 정확도)
- **제안**: 임베딩 전/후 특성 선택 적용
- **효과**: 88% 정확도 달성 (3%p 향상)

---

## 주요 내용

### Two-Stage Feature Selection
1. **Pre-embedding**: 원본 텍스트 특성 필터링 (불필요 단어 제거)
2. **Post-embedding**: 임베딩 차원 중 중요 차원만 선택
3. 최종 분류기 학습 (BERT Classifier)

### Graduate Employment Classification
- 구조화된 데이터 + 텍스트 결합
- BERT 임베딩으로 텍스트 특성 추출
- 특성 선택으로 차원 축소 + 성능 향상

---

## 로빙 프로젝트 적용

### Coldmail 임베딩 차원 최적화
- **현재**: multilingual-MiniLM 384차원 전체 사용
- **적용**:
  - coldmail 도메인에서 중요한 차원만 선택 (384 → 100-150차원)
  - "투자", "IR", "제안" 관련 의미를 강하게 표현하는 차원 우선
- **효과**:
  - centroid 유사도 정확도 향상 (75% → 80%+)
  - 검색 속도 개선 (차원 축소)

### 기억 시스템 임베딩
- **현재**: 모든 대화를 384차원 임베딩으로 저장
- **적용**: 사용자별 중요 차원 학습 (사용자 A는 기술 관련 차원 우선)
- **효과**: 개인화된 메모리 검색 정확도 향상

---

## 참고

251014_claude_coldmail_filter_tokenization_issue.md - 임베딩 정확도 75% 한계 해결