# BERT Embedding with Feature Selection for Classification **저자**: Leveraging LLMs for optimised feature selection **출판**: ScienceDirect (2024년 6월) **링크**: https://www.sciencedirect.com/science/article/pii/S2666920X24001590 --- ## 핵심 기여 BERT 임베딩에 특성 선택(feature selection)을 적용하여 분류 정확도 향상: - **기존**: BERT 임베딩 직접 사용 (85% 정확도) - **제안**: 임베딩 전/후 특성 선택 적용 - **효과**: 88% 정확도 달성 (3%p 향상) --- ## 주요 내용 ### Two-Stage Feature Selection 1. **Pre-embedding**: 원본 텍스트 특성 필터링 (불필요 단어 제거) 2. **Post-embedding**: 임베딩 차원 중 중요 차원만 선택 3. 최종 분류기 학습 (BERT Classifier) ### Graduate Employment Classification - 구조화된 데이터 + 텍스트 결합 - BERT 임베딩으로 텍스트 특성 추출 - 특성 선택으로 차원 축소 + 성능 향상 --- ## 로빙 프로젝트 적용 ### Coldmail 임베딩 차원 최적화 - **현재**: multilingual-MiniLM 384차원 전체 사용 - **적용**: - coldmail 도메인에서 중요한 차원만 선택 (384 → 100-150차원) - "투자", "IR", "제안" 관련 의미를 강하게 표현하는 차원 우선 - **효과**: - centroid 유사도 정확도 향상 (75% → 80%+) - 검색 속도 개선 (차원 축소) ### 기억 시스템 임베딩 - **현재**: 모든 대화를 384차원 임베딩으로 저장 - **적용**: 사용자별 중요 차원 학습 (사용자 A는 기술 관련 차원 우선) - **효과**: 개인화된 메모리 검색 정확도 향상 --- ## 참고 251014_claude_coldmail_filter_tokenization_issue.md - 임베딩 정확도 75% 한계 해결