개발 개발 툴

G

geeknews

2025. 06. 21

Apple의 새로운 Speech API: Whisper 대비 2.2배 빠른 실시간 음성 텍스트 변환

Apple의 새로운 Speech API, Whisper보다 월등히 빠른 실시간 음성 텍스트 변환 제공

카테고리

프로그래밍/소프트웨어 개발

서브카테고리

개발 툴

대상자

*개발자, 영상 제작자, 유튜버, 학생 등**
난이도: 초보자~중급자 (커맨드라인 툴 사용 가능)

핵심 요약

Apple의 SpeechAnalyzer 및 SpeechTranscriber는 Whisper 대비 2.2배 빠른 속도로 동일한 품질을 유지함
Yap 커맨드라인 툴을 통해 45초 만에 7GB 비디오 파일을 SRT/TXT로 변환 가능
macOS Tahoe 베타에서 사용 가능하며, Apple 플랫폼 전반에서 Whisper 대체 기대

섹션별 세부 요약

1. 성능 비교

Yap → 45초 (34분, 7GB 영상)
MacWhisper(V3 Turbo) → 1분 41초
VidCap → 1분 55초
MacWhisper(V2) → 3분 55초
Whisper 대비 2.2배 빠른 속도를 보임

2. 품질 및 한계

고유명사 및 CamelCase(예: AppStories) 인식 시 일관된 오류 발생
후처리로 간단히 교정 가능
MacWhisper, VidCap 등과 품질 차이 거의 없음

3. 사용 사례 및 자동화

YouTube 영상 대량 변환 시 yt-dlp 등과 연계 가능
자막, 강의, 요약 작업에 빠른 워크플로우 제공
반복 작업 시 누적 시간 절감 효과 큼

4. 설치 및 사용 방법

macOS Tahoe 베타 설치 (개발자 계정 필요)
GitHub 저장소에서 Yap 다운로드 및 설치
Yap 실행 → 오디오/비디오 파일 입력 → SRT/TXT 변환 파일 생성

5. 기술적 배경 및 기대

WWDC 2024에서 공개된 SpeechAnalyzer/SpeechTranscriber
Apple 공식 문서 및 WWDC 277번 영상에서 추가 정보 확인 가능
Apple 플랫폼에서의 표준 모델로 자리매김 가능성

결론

SpeechAnalyzer/SpeechTranscriber 조합을 사용해 고속·고품질 음성 인식 작업 가능
대량 자동화 작업 시 yt-dlp 등과 연계하여 효율성 극대화
Apple 플랫폼에서의 음성 인식 워크플로우를 주도할 것으로 기대

SpeechAnalyzer SpeechTranscriber Apple Speech API real-time speech to text Whisper Yap video transcription

목록으로 원문 보기