From de9388c39839dc1312fb02142ac9ba88b4dc886a Mon Sep 17 00:00:00 2001 From: happybell80 Date: Thu, 4 Sep 2025 16:59:42 +0900 Subject: [PATCH] =?UTF-8?q?docs:=20=EB=84=A4=EC=9D=B4=EB=B2=84=20=EB=B8=94?= =?UTF-8?q?=EB=A1=9C=EA=B7=B8=20RSS=20=ED=94=BC=EB=93=9C=20=EC=A0=9C?= =?UTF-8?q?=ED=95=9C=20=EB=AC=B8=EC=A0=9C=20=EB=AC=B8=EC=84=9C=ED=99=94=20?= =?UTF-8?q?-=20RSS=20description=208=EA=B0=9C=20=EC=A0=9C=ED=95=9C,=20Play?= =?UTF-8?q?wright=20=ED=95=B4=EA=B2=B0=EB=B0=A9=EC=95=88=20=EC=A0=9C?= =?UTF-8?q?=EC=8B=9C?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit --- .../250904_naver_blog_rss_limitation.md | 50 +++++++++++++++++++ 1 file changed, 50 insertions(+) create mode 100644 troubleshooting/250904_naver_blog_rss_limitation.md diff --git a/troubleshooting/250904_naver_blog_rss_limitation.md b/troubleshooting/250904_naver_blog_rss_limitation.md new file mode 100644 index 0000000..978c25e --- /dev/null +++ b/troubleshooting/250904_naver_blog_rss_limitation.md @@ -0,0 +1,50 @@ +# 네이버 블로그 RSS 피드 내용 제한 문제 + +## 작성일: 2025-09-04 +## 상태: 🟡 해결방안 제시 +## 영향: 스타트업 뉴스 자동화 제한 + +## 문제 +- **대상 블로그**: 깡프로 스타트업 트렌드 연구소 (https://blog.naver.com/startupventure) +- **RSS 피드**: https://rss.blog.naver.com/startupventure.xml +- **증상**: 블로그 본문 20개 뉴스 중 RSS description에는 8개만 포함 +- **원인**: 네이버 RSS 피드의 description 필드 크기 제한 + +## 분석 결과 +```xml + + +]]> + +``` + +## 네이버 블로그 파싱 제약 +1. **JavaScript 동적 렌더링**: 정적 HTML 파싱 불가 +2. **iframe 구조**: 실제 콘텐츠가 iframe 내부에 위치 +3. **스크래핑 방지**: User-Agent 체크, Rate limiting + +## 해결 방안 + +### 1. Playwright 브라우저 자동화 (추천) +- JavaScript 렌더링 완료 후 DOM 파싱 +- 전체 20개 뉴스 항목 추출 가능 +- 매일 자동 실행으로 슬랙 뉴스봇 구현 + +### 2. RSS + Playwright 하이브리드 +- RSS로 최신 포스트 URL 획득 +- Playwright로 해당 URL 방문하여 전체 내용 파싱 + +### 3. RSS만 활용 (제한적) +- 8개 헤드라인만으로 운영 +- 중요 뉴스는 대부분 상단에 위치하므로 실용적 + +## 테스트 코드 필요 +Playwright를 사용한 네이버 블로그 파싱 가능성 검증 필요 + +## 관련 서비스 +- skill-news: 뉴스 수집 및 슬랙 전송 서비스 +- 로빙 슬랙봇: 뉴스 전달 담당 \ No newline at end of file