링크드인 프로필 자동 추출 및 JSON 리서머 생성 방법
카테고리
프로그래밍/소프트웨어 개발
서브카테고리
웹 개발, 인공지능, DevOps
대상자
- 기술 스택: n8n, Bright Data, Google Gemini를 활용한 자동화 개발자
- 난이도: 중급 이상 (API 통합, 웹 스크래핑, AI 모델 사용 경험 필요)
- 목표: 채용 플랫폼, HR 도구, 개인 웹사이트에서 사용 가능한 구조화된 JSON 리서머 자동 생성
핵심 요약
- Bright Data의 Web Unlocker를 사용하여 CAPTCHA 없는 LinkedIn 스크래핑 가능
- Google Gemini LLM을 통해 JSON Resume Schema 기반의 구조화된 데이터 추출
- n8n 플랫폼을 통해 API 통합 및 워크플로우 자동화
- 스케일링 가능: 단일 프로필부터 수천 개 페이지까지 대규모 처리 지원
섹션별 세부 요약
1. 문제 정의 및 기존 방식의 한계
- 수동 처리의 단점:
- HTML 구조 불명확, 반복적인 복사/붙여넣기
- 봇 차단 기술(anti-bot)로 인한 스크래핑 실패
- 현재 해결 방안:
- 자동화를 통해 시간 절약과 오류 감소 가능
2. 주요 도구 및 기술 스택
- n8n:
- 워크플로우 트리거, API 통합, 데이터 흐름 관리
- 예:
Input Node
를 통해 LinkedIn URL 입력
- Bright Data:
Web Unlocker
로 대규모 IP 회전, JavaScript 렌더링 처리- 195개 국가 이상의 글로벌 IP 커버리지
- Google Gemini:
- HTML 해석 및 JSON Resume Schema 기반 데이터 구조화
- 예:
work
배열에서startDate
,endDate
,summary
추출
3. 워크플로우 단계
- Input Node:
- LinkedIn URL 입력 및 Webhook 설정
- Bright Data Web Scraper:
- LinkedIn 프로필의 원본 HTML 추출
- Gemini API:
JSON Resume
형식으로 구조화된 데이터 생성- 예:
```json
"basics": {
"name": "John Doe",
"email": "john.doe@example.com",
"summary": "Full-stack developer with 5 years of experience..."
}
```
- Output / Webhook / Storage:
- JSON 결과를 Webhook으로 전송 또는 로컬 저장
4. 주요 기능 및 이점
- Stealth 기능:
- 브라우저 지문 회피, 세션 회전으로 봇 탐지 회피
- 보안 및 확장성:
- GDPR/CCPA 준수, API-First 설계, 확장 가능한 배포 전략
- 사용 사례:
- ATS 시스템, 개인 포트폴리오 웹사이트, 자동화된 채용 플랫폼
결론
- 자동화 워크플로우를 통해 수동 리서머 입력을 완전히 제거하고, 대규모 데이터 처리 가능
- Gemini의 언어 모델을 활용해 비정형 데이터(HTML)를 JSON 구조로 정확히 변환
- n8n + Bright Data + Google Gemini의 조합으로 실시간 채용 프로세스 자동화 가능