스캔된 문서의 압축: 특별 고려사항

카테고리

프로그래밍/소프트웨어 개발

서브카테고리

데이터 분석

대상자

  • 스캔된 PDF 파일을 압축하여 파일 크기를 줄이고 가독성을 유지해야 하는 사용자
  • OCR, MRC, JBIG2 등의 압축 기술을 활용한 문서 처리에 관심 있는 개발자 및 기술 담당자
  • 이메일, 클라우드 저장소 등에서 스캔 문서를 효율적으로 사용해야 하는 비즈니스 담당자

핵심 요약

  • OCR 기술은 스캔 이미지에서 텍스트를 인식하여 파일 크기를 50-90% 줄일 수 있음 (예: Adobe Acrobat Pro, ABBYY FineReader)
  • MRC 압축은 텍스트/배경/마스크 층을 분리하여 8-10배의 파일 크기 감소 가능 (예: Adobe Acrobat Pro PDF Optimizer)
  • JBIG2 압축은 흑백 텍스트 문서에 최적화되어 3-5배의 압축률 달성 (예: 텍스트만 있는 문서, 폼, 명세서)
  • 사전 처리 (스캔 정렬, 노이즈 제거, 여백 제거)은 압축 효율을 최대 70% 개선

섹션별 세부 요약

1. 스캔 문서와 디지털 PDF의 차이

  • 디지털 PDF는 텍스트, 벡터 그래픽, 임베디드 이미지 포함
  • 스캔 PDF는 래스터 이미지(1장당 1개 이미지)로 구성
  • 표준 압축 기술(텍스트/벡터 최적화)은 효과적이지 않음

2. 스캔 해상도와 색상 모드의 영향

  • 해상도: 200 DPI(최소), 300 DPI(표준), 600 DPI(고해상도)
  • 색상 모드:

- 24비트 색상: 3MB/페이지 (300 DPI)

- 8비트 그레이스케일: 1MB/페이지 (300 DPI)

- 1비트 흑백: 100KB/페이지 (300 DPI)

  • 불필요한 색상 사용은 파일 크기를 30배 증가

3. 압축에 방해가 되는 문제점

  • 배경 노이즈: 종이 텍스처, 변색, 그림자
  • 기울어진 페이지: 정렬되지 않은 페이지
  • 아티팩트: 먼지, 표시, 스캐너 줄무늬
  • 불필요한 여백: 내용 주변의 흰색 공간

4. OCR 기술 활용

  • 텍스트 층 생성: 이미지 위에 텍스트 층 추가
  • 이미지 다운샘플링: 압축 효율 향상
  • 검색 가능한 콘텐츠: 고해상도 이미지 없이 검색 가능
  • 예시 도구: Google Drive, Microsoft OneNote

5. MRC 압축 기술

  • 층 분리:

- 텍스트/전경 층: 선명한 경계 최적화 압축

- 배경 층: 매끄러운 전환 최적화 압축

- 마스크 층: 층 분할 정의

  • 효과: 파일 크기 8-10배 감소, 품질 유지

6. JBIG2 압축

  • 패턴 인식: 반복된 문자/패턴을 하나로 저장
  • 압축 효율: 다른 방법 대비 3-5배 높음
  • 적용 대상: 텍스트만 있는 문서, 단순 그래픽 포함 폼

7. 사전 처리의 중요성

  • 페이지 정렬: OCR 정확도 및 압축 효율 향상
  • 노이즈 제거: 비트 소모 감소, 가독성 개선
  • 종이 텍스처 제거: 배경 흰색화, 그림자/얼룩 제거
  • 여백 제거: 실제 콘텐츠 집중, 픽셀 수 감소

8. 최적의 스캔 설정

  • 해상도: 대부분의 문서는 300 DPI, 작은 글씨는 필요 시 600 DPI
  • 색상 모드:

- 텍스트만: 흑백(1비트)

- 그림/그림자 포함: 그레이스케일(8비트)

- 색상 필수: 24비트 색상

  • 파일 형식: 가능하면 스캔 시 PDF로 직접 저장
  • 압축 옵션: 스캐너의 "고압축" 기능 활용

9. 실무 워크플로우 예시

  • Adobe Acrobat Pro:
  1. 스캔 PDF 열기
  2. OCR 실행: Tools > Scan & OCR > Recognize Text
  3. 파일 최적화: File > Save As Other > Optimized PDF
  4. PDF Optimizer에서 "Scanned Pages" 선택, MRC 압축 활성화
  • RevisePDF:
  1. RevisePDF.com 방문
  2. 스캔 PDF 업로드
  3. "Compress Scanned PDF" 선택, 압축 수준 및 OCR 옵션 설정
  4. 문서 처리 후 결과 미리보기 및 다운로드

10. 대규모 문서 처리 전략

  • 문서 유형 분류: 텍스트만, 혼합 콘텐츠 등
  • 처리 프로필 생성: 각 유형별 압축 설정 정의
  • 배치 처리: Acrobat Pro 또는 RevisePDF의 배치 처리 기능 활용
  • 품질 검증: 배치별 샘플 품질 검사

11. 고량 스캔 작업 최적화

  • 스캐너 설정: 적절한 해상도 및 색상 모드 구성
  • 실시간 이미지 처리: 스캔 중 노이즈 제거, 정렬
  • OCR 통합: 스캔 워크플로우에 포함
  • 서버 기반 압축 도구: 일관된 결과 보장
  • 문서 관리 시스템 연동: 자동화 및 추적

결론

  • 스캔 문서 압축 시 해상도, 색상 모드, 사전 처리를 최적화하고 OCR, MRC, JBIG2 기술을 활용해야 함
  • Adobe Acrobat ProRevisePDF는 사용자 친화적인 도구로 추천
  • 고품질 압축을 위해 텍스트 가독성(95% 이상), 파일 크기(10MB 이하), 검색 가능성을 반드시 확인해야 함