9시 네이버 이메일 분석 미전송 실패 은닉 리서치

tags: [naverworks, email, briefing, timeout, failure-observability]

날짜: 2026-03-09
작성자: Codex
상위 원칙: 문서 작성 원칙, Backend Coding Principles

조사 대상

rb8001 스케줄 로그 기준 2026-03-09 09:00:00 KST에 naverworks_daily 작업은 실행됐다.
같은 요청 흐름에서 2026-03-09 09:00:30 KST에 httpx.ReadTimeout이 발생했다.
rb8001/app/services/skills/naverworks_briefing.py는 메일 조회 실패를 빈 목록처럼 다뤄 No emails로 끝낼 수 있는 구조였다.
rb8001/app/scheduler/jobs/naverworks_briefing.py는 작업 예외를 다시 올리지 않아 APScheduler 성공 로그와 실제 실패가 어긋날 수 있는 구조였다.
skill-email/services/naverworks_provider.py는 당시 단계별 elapsed 로그가 부족해, 30초 블로킹의 최종 지점이 auth-server refresh인지 NAVER WORKS 외부 API인지 즉시 분리하기 어려웠다.
skill-email, auth-server 컨테이너는 UTC 기준으로 동작하고, rb8001은 KST 기준 스케줄을 사용한다.
main_db.naverworks_token.expires_at는 timestamp without time zone이라 비교 기준이 코드에서 명시되지 않으면 해석 흔들림이 생긴다.

직접 원인은 rb8001 -> skill-email /messages 경로의 read timeout이다.
구조 원인은 "조회 실패"와 "조회 결과 0건"을 같은 값으로 취급한 설계다.
관측 실패 원인은 스케줄러 래퍼가 예외를 다시 올리지 않은 점이다.
시간대 혼재와 naive timestamp는 재발 위험을 높이는 구조 요인이지만, 이번 09:00 미전송의 직접 원인 자체를 대체하지는 않는다.

2026-03-09 09:00의 실제 30초 block point가 auth-server refresh였는지, 외부 NAVER WORKS API였는지는 당시 세부 로그 부재로 100% 확정하지 못했다.
이 항목은 이번 수정 후 재발 시 새 추적 로그로 닫는다.