AWS S3에 저장된 PDF 파일의 페이지 수를 Python과 Boto3, PyPDF2로 확인하는 방법

📅 2025-07-22T20:36:39Z 👤 Pooja Patel 🏷️ 개발, 트렌드

완성도:

0.8

🤖 AI 추천

AWS S3에 저장된 PDF 파일의 페이지 수를 프로그래밍 방식으로 알아내야 하는 백엔드 개발자, 클라우드 엔지니어, 또는 데이터 엔지니어에게 유용합니다.

💻 Development

AWS S3에 저장된 PDF 파일의 페이지 수를 Python을 이용하여 간편하게 추출하는 방법을 제시합니다. Boto3 라이브러리를 통해 S3에서 파일을 가져오고, PyPDF2 라이브러리로 PDF 내용을 분석합니다.

AWS S3 접근: boto3.client('s3')를 사용하여 S3 서비스에 접근합니다.
객체 다운로드: s3.get_object(Bucket=bucket_name, Key=pdf_key)를 통해 S3 버킷에서 특정 PDF 파일(pdf_key)을 가져옵니다. 파일의 내용은 response['Body'].read()로 읽어옵니다.
PDF 파싱: io.BytesIO를 사용하여 메모리 내에서 바이트 스트림으로 PDF 데이터를 처리하고, pypdf.PdfReader로 PDF 파일을 읽습니다.
페이지 수 확인: len(reader.pages)를 통해 PDF의 총 페이지 수를 얻습니다.
필수 라이브러리: boto3 및 pypdf 설치 (pip install boto3 pypdf)
AWS 자격 증명 설정: ~/.aws/credentials 파일, 환경 변수 또는 IAM 역할을 통해 AWS 자격 증명을 구성해야 합니다.