Apple의 새로운 Speech API, Whisper보다 월등히 빠른 실시간 음성 텍스트 변환 제공
카테고리
프로그래밍/소프트웨어 개발
서브카테고리
개발 툴
대상자
- *개발자, 영상 제작자, 유튜버, 학생 등**
- 난이도: 초보자~중급자 (커맨드라인 툴 사용 가능)
핵심 요약
- Apple의 SpeechAnalyzer 및 SpeechTranscriber는 Whisper 대비 2.2배 빠른 속도로 동일한 품질을 유지함
- Yap 커맨드라인 툴을 통해 45초 만에 7GB 비디오 파일을 SRT/TXT로 변환 가능
- macOS Tahoe 베타에서 사용 가능하며, Apple 플랫폼 전반에서 Whisper 대체 기대
섹션별 세부 요약
1. 성능 비교
- Yap → 45초 (34분, 7GB 영상)
- MacWhisper(V3 Turbo) → 1분 41초
- VidCap → 1분 55초
- MacWhisper(V2) → 3분 55초
- Whisper 대비 2.2배 빠른 속도를 보임
2. 품질 및 한계
- 고유명사 및 CamelCase(예: AppStories) 인식 시 일관된 오류 발생
- 후처리로 간단히 교정 가능
- MacWhisper, VidCap 등과 품질 차이 거의 없음
3. 사용 사례 및 자동화
- YouTube 영상 대량 변환 시 yt-dlp 등과 연계 가능
- 자막, 강의, 요약 작업에 빠른 워크플로우 제공
- 반복 작업 시 누적 시간 절감 효과 큼
4. 설치 및 사용 방법
- macOS Tahoe 베타 설치 (개발자 계정 필요)
- GitHub 저장소에서 Yap 다운로드 및 설치
- Yap 실행 → 오디오/비디오 파일 입력 → SRT/TXT 변환 파일 생성
5. 기술적 배경 및 기대
- WWDC 2024에서 공개된 SpeechAnalyzer/SpeechTranscriber
- Apple 공식 문서 및 WWDC 277번 영상에서 추가 정보 확인 가능
- Apple 플랫폼에서의 표준 모델로 자리매김 가능성
결론
- SpeechAnalyzer/SpeechTranscriber 조합을 사용해 고속·고품질 음성 인식 작업 가능
- 대량 자동화 작업 시 yt-dlp 등과 연계하여 효율성 극대화
- Apple 플랫폼에서의 음성 인식 워크플로우를 주도할 것으로 기대