개발 웹 개발, 인공지능, DevOps

D

dev_to

2025. 06. 07

링크드인 프로필 자동 추출 및 JSON 리서머 생성 방법

카테고리

프로그래밍/소프트웨어 개발

서브카테고리

웹 개발, 인공지능, DevOps

대상자

- 기술 스택: n8n, Bright Data, Google Gemini를 활용한 자동화 개발자

- 난이도: 중급 이상 (API 통합, 웹 스크래핑, AI 모델 사용 경험 필요)

- 목표: 채용 플랫폼, HR 도구, 개인 웹사이트에서 사용 가능한 구조화된 JSON 리서머 자동 생성

핵심 요약

Bright Data의 Web Unlocker를 사용하여 CAPTCHA 없는 LinkedIn 스크래핑 가능
Google Gemini LLM을 통해 JSON Resume Schema 기반의 구조화된 데이터 추출
n8n 플랫폼을 통해 API 통합 및 워크플로우 자동화
스케일링 가능: 단일 프로필부터 수천 개 페이지까지 대규모 처리 지원

섹션별 세부 요약

1. 문제 정의 및 기존 방식의 한계

- 수동 처리의 단점:

HTML 구조 불명확, 반복적인 복사/붙여넣기
봇 차단 기술(anti-bot)로 인한 스크래핑 실패

- 현재 해결 방안:

자동화를 통해 시간 절약과 오류 감소 가능

2. 주요 도구 및 기술 스택

- n8n:

워크플로우 트리거, API 통합, 데이터 흐름 관리
예: Input Node를 통해 LinkedIn URL 입력

- Bright Data:

Web Unlocker로 대규모 IP 회전, JavaScript 렌더링 처리
195개 국가 이상의 글로벌 IP 커버리지

- Google Gemini:

HTML 해석 및 JSON Resume Schema 기반 데이터 구조화
예: work 배열에서 startDate, endDate, summary 추출

3. 워크플로우 단계

Input Node:

LinkedIn URL 입력 및 Webhook 설정

Bright Data Web Scraper:

LinkedIn 프로필의 원본 HTML 추출

Gemini API:

JSON Resume 형식으로 구조화된 데이터 생성
예:

```json

"basics": {

"name": "John Doe",

"email": "john.doe@example.com",

"summary": "Full-stack developer with 5 years of experience..."

}

```

Output / Webhook / Storage:

JSON 결과를 Webhook으로 전송 또는 로컬 저장

4. 주요 기능 및 이점

- Stealth 기능:

브라우저 지문 회피, 세션 회전으로 봇 탐지 회피

- 보안 및 확장성:

GDPR/CCPA 준수, API-First 설계, 확장 가능한 배포 전략

- 사용 사례:

ATS 시스템, 개인 포트폴리오 웹사이트, 자동화된 채용 플랫폼

결론

자동화 워크플로우를 통해 수동 리서머 입력을 완전히 제거하고, 대규모 데이터 처리 가능
Gemini의 언어 모델을 활용해 비정형 데이터(HTML)를 JSON 구조로 정확히 변환
n8n + Bright Data + Google Gemini의 조합으로 실시간 채용 프로세스 자동화 가능

LinkedIn Profile Extract JSON Resume Bright Data Google Gemini automation n8n resume parsing

목록으로 원문 보기