- ChromaDB 메타데이터 손상 문제 문서화 - CompanyX 뉴스 검증 로직 현황 수정 - 4개 아이디어 문서에 프로젝트 구현 상태 추가 - HWP-PDF 변환: skill-rag-file 미지원 - 네이버웍스 캘린더: OAuth2/서비스 미구현 - 감정 분석: ONNX 미통합, API 미구현 - 슬랙 캔버스: API 전체 미사용
1.6 KiB
1.6 KiB
CompanyX 뉴스 잘못된 기사 송출 문제
배경
- 날짜: 2025-09-16
- 문제: 10시 스케줄러가 CompanyX와 무관한 뉴스를 슬랙에 송출
- 원인: 검색어 부분 매칭 및 검증 로직 부재
문제 상황
증상
- 10:01 "오글 필요 없다" 규현, 엔티엑스(NTX) 등 무관한 기사 송출
- 채널: C09C98KK2TT, ts: 1757984471.889439
검증 과정 분석
현재 검색: COMPANY_X_SEARCH_KEYWORD='"컴퍼니 엑스"' (따옴표 포함)
수집 결과: 보링컴퍼니, DHX컴퍼니, 엑스붐 버즈 등
검증 로직: 없음 (companyx_news_collector.py에 검증 코드 없음)
추가 문제
- 01:00에만 수집, 10:00은 기존 데이터 재사용
- OpenAI quota 초과로 summarized 상태 0개
- rb8001이 빈 응답 시 이전 데이터 송출
해결 과정
1. 문제 확인
docker logs robeing-skill-news | grep "컴퍼니엑스"
# 결과: "머스크의 보링컴퍼니", "엔티엑스(NTX)" 등 수집
2. 슬랙 메시지 처리 방안
- chat_update API로 메시지 수정 가능
- 채널: C09C98KK2TT, ts: 1757984471.889439
필요한 개선사항
1. 수집 단계 검증 필요
- 제목/URL에서 회사명 정확히 포함 여부 확인 로직 추가
- 부분 매칭 제외 로직 구현
2. 처리 단계 검증 필요
- 본문 스크래핑 후 관련성 검증 로직 추가
3. 전송 전 검증 필요
- summarized 상태 기사만 전송하도록 필터링
- 검증된 기사 0개일 때 전송 중단 로직
교훈
- 검색어 설정과 검증은 별개 프로세스로 관리 필요
- 외부 API 장애 시 failover 전략 필수