Hacker News 데이터 추출: Google Gemini, n8n, Bright Data 활용
AI Store에서 AI코딩으로 만들어진 앱을 만나보세요!
지금 바로 방문하기

해커뉴스 데이터 추출 및 구조화: Google Gemini, n8n, Bright Data 활용

카테고리

프로그래밍/소프트웨어 개발

서브카테고리

DevOps

대상자

  • 개발자, 데이터 분석가, AI 엔지니어
  • 중간 난이도: API 설정, 워크플로우 자동화, JSON 처리 기술 필요

핵심 요약

  • 자동화된 해커뉴스 데이터 처리: n8n + Bright Data + Google Gemini 조합으로 구조화된 JSON 생성
  • Bright Data Web Unlocker를 통해 자바스크립트 렌더링, CAPTCHA, IP 회전 문제 해결
  • Gemini API를 활용한 HTML → JSON 변환태그/포인트/댓글 수 등 핵심 메타데이터 추출

섹션별 세부 요약

1. 해커뉴스 데이터 추출 흐름

  • n8n 워크플로우로 해커뉴스의 Today, Yesterday, Weekly, All Time 데이터 수집
  • Bright Data Web Unlocker동적 콘텐츠 추출세션 관리 수행
  • Google Gemini API를 통해 HTML → JSON 변환필수 필드 정의 (id, title, points, commentsCount, submitter)

2. Bright Data의 핵심 기능

  • 글로벌 IP 커버리지: 195개 국가의 거주자, 데이터센터, 모바일 프록시 제공
  • 스마트 언락 기능: JavaScript 렌더링, 리디렉션, 쿠키 자동 처리
  • 보안 및 규제 준수: GDPR, CCPA 준수, 트래픽 암호화 지원

3. JSON 구조 예시

{
  "$schema": "search term used (e.g., \"artificial-intelligence\")",
  "totalResults": {"type": "integer"},
  "page": {"type": "integer"},
  "results": [
    {
      "id": "HN item ID",
      "title": "Headline or title of the post",
      "points": {"type": "integer"},
      "commentsCount": {"type": "integer"}
    }
  ]
}

4. 구현 단계

  1. n8n 인스턴스에 템플릿 임포트
  2. Bright Data 자격 증명 및 Gemini API 키 입력
  3. 검색 범위 설정 (today, yesterday, week, all)
  4. 실행 후 JSON 결과 생성 및 활용 (뉴스레터, 트렌드 대시보드, AI 훈련)

결론