해커뉴스 데이터 추출 및 구조화: Google Gemini, n8n, Bright Data 활용
카테고리
프로그래밍/소프트웨어 개발
서브카테고리
DevOps
대상자
- 개발자, 데이터 분석가, AI 엔지니어
- 중간 난이도: API 설정, 워크플로우 자동화, JSON 처리 기술 필요
핵심 요약
- 자동화된 해커뉴스 데이터 처리:
n8n
+Bright Data
+Google Gemini
조합으로 구조화된 JSON 생성 - Bright Data Web Unlocker를 통해 자바스크립트 렌더링, CAPTCHA, IP 회전 문제 해결
- Gemini API를 활용한 HTML → JSON 변환 및 태그/포인트/댓글 수 등 핵심 메타데이터 추출
섹션별 세부 요약
1. 해커뉴스 데이터 추출 흐름
- n8n 워크플로우로 해커뉴스의 Today, Yesterday, Weekly, All Time 데이터 수집
- Bright Data Web Unlocker가 동적 콘텐츠 추출 및 세션 관리 수행
- Google Gemini API를 통해 HTML → JSON 변환 및 필수 필드 정의 (
id
,title
,points
,commentsCount
,submitter
)
2. Bright Data의 핵심 기능
- 글로벌 IP 커버리지: 195개 국가의 거주자, 데이터센터, 모바일 프록시 제공
- 스마트 언락 기능: JavaScript 렌더링, 리디렉션, 쿠키 자동 처리
- 보안 및 규제 준수: GDPR, CCPA 준수, 트래픽 암호화 지원
3. JSON 구조 예시
{
"$schema": "search term used (e.g., \"artificial-intelligence\")",
"totalResults": {"type": "integer"},
"page": {"type": "integer"},
"results": [
{
"id": "HN item ID",
"title": "Headline or title of the post",
"points": {"type": "integer"},
"commentsCount": {"type": "integer"}
}
]
}
4. 구현 단계
- n8n 인스턴스에 템플릿 임포트
- Bright Data 자격 증명 및 Gemini API 키 입력
- 검색 범위 설정 (
today
,yesterday
,week
,all
) - 실행 후 JSON 결과 생성 및 활용 (뉴스레터, 트렌드 대시보드, AI 훈련)
결론
- n8n + Bright Data + Gemini 조합으로 해커뉴스 데이터를 자동화된 JSON 형식으로 추출 가능
- 구조화된 데이터는 AI 훈련, SEO 블로그 생성, 실시간 대시보드 구축 등에 활용 가능
- GitHub에서 템플릿 확인: Best Of Hacker News Structured Data Extract & Export with Google Gemini