Whisper 모델의 '환각' 현상: 무음 구간 및 학습 데이터 편향 문제 분석
🤖 AI 추천
AI 모델, 특히 음성 인식 및 전사(Speech-to-Text) 기술을 다루는 개발자, 연구자, 그리고 Whisper 모델을 활용하려는 모든 IT 전문가에게 유용합니다. 모델의 한계를 이해하고 실제 서비스에 적용하기 위한 방안을 모색하는 데 도움이 될 것입니다.
🔖 주요 키워드
핵심 기술: OpenAI의 Whisper 모델, 특히 large-v3 버전에서 발생하는 '환각(hallucination)' 현상, 즉 무음 구간이나 의미 없는 소리에 대해 비정상적으로 특정 텍스트를 생성하는 문제에 대해 심층적으로 분석합니다.
기술적 세부사항:
* 문제 현상: Whisper large-v3 모델이 무음 WAV 파일 입력 시 아랍어로 "ترجمة نانسي قنقر" (Nancy Qanqar의 번역)라는 동일한 텍스트를 환각하는 현상이 보고됨.
* 재현 방법: ffmpeg로 생성된 무음 오디오 파일에 Whisper large-v3 모델과 아랍어 언어 설정을 적용하여 재현 가능.
* 모델 학습 추정 원인: 모델이 무음 오디오를 특정 텍스트로 해석하도록 학습되었을 가능성이 제기됨. 이는 주로 영화/유튜브 영상의 비공식 자막 등 편향된 학습 데이터에서 비롯된 것으로 추정.
* 이전 모델과의 차이: small 등 이전 모델에서는 suppress_tokens
, initial prompt
, logprob_threshold
등의 파라미터 조정으로 일부 억제가 가능했으나, large-v3에서는 효과가 미미하거나 고정된 환각 결과 발생.
* 제안된 우회 방법:
* VAD(Voice Activity Detection)를 사용하여 실제 음성이 있는 구간만 Whisper에 입력.
* 완전히 무음이거나 신호가 약한 오디오는 Whisper 외 다른 방법으로 후처리.
* 다국어 환각 사례: 중국어 환경에서 침묵 구간이 "좋아요, 공유, 즐겨찾기 부탁드림", "[MUSIC]" 등으로 출력되거나, 러시아어에서 "Субтитры сделал DimaTorzok" (자막 제작: DimaTorzok) 같은 문구가 삽입되는 현상도 유사한 원인으로 분석됨.
* 기타 문제점: 화자 이름 임의 생성, 간체/번체 혼용, 울음/코훌쩍임/기침 등을 잘못 전사하는 사례도 보고됨.
개발 임팩트: Whisper와 같은 최신 STT 모델의 한계를 명확히 인지하고, 실제 서비스 적용 시 발생할 수 있는 예기치 못한 오류(환각)에 대한 대비책 마련이 중요함을 시사합니다. VAD 적용 등 전처리/후처리 과정의 중요성이 부각되며, 모델의 편향된 학습 데이터를 개선하거나 보완하는 연구의 필요성을 제기합니다.
커뮤니티 반응: 커뮤니티에서는 이러한 환각 현상이 '오버피팅'의 사례일 수 있다는 의견과 함께, 데이터 품질 또는 분류 문제일 가능성도 제기되었습니다. 또한, Whisper 모델의 한계를 이해하고 이를 극복하기 위한 우회 방법(VAD 등)을 적용하는 것이 실용적이라는 의견도 공유되었습니다. OpenAI가 불법 영화로 학습했다는 의혹에 대한 논의도 있습니다.