이스트소프트, AI 비디오 트랜슬레이터 기능 확장 및 사용자 경험 개선
🤖 AI 추천
영상 콘텐츠 크리에이터, AI 및 음성 합성 기술에 관심 있는 개발자, 글로벌 시장을 겨냥하는 미디어 서비스 기획자
🔖 주요 키워드

기술 분석 요약
핵심 기술
이스트소프트의 페르소닷에이아이(PERSO.ai)가 제공하는 'AI 비디오 트랜슬레이터' 서비스가 영상 길이 및 용량 지원을 확장하고 사용자 인터페이스(UI)를 개선하는 업데이트를 단행했습니다. 특히 베트남어 지원 추가는 동남아 시장을 겨냥한 전략적 움직임으로 볼 수 있습니다.
기술적 세부사항
- 더빙 영상 길이 확장: 기존 20초~20분에서 5초~30분으로 지원 범위 확대.
- 더빙 영상 용량 확장: 기존 1GB에서 2GB로 두 배 확장.
- 고화질 영상 지원 강화: 늘어난 용량으로 다큐멘터리 등 고화질 영상 더빙 가능.
- 사용자 인터페이스(UI) 개선: 직관적인 UI로 사용자 경험 향상.
- 신규 더빙 언어 추가: 베트남어 지원을 시작으로 동남아 시장 공략 강화.
- 다화자 오토더빙 기술 적용: 한국어 발음 특성 및 입술 움직임 패턴 분석 AI 모델 기반.
개발 임팩트
- 영상 콘텐츠 크리에이터들의 다양한 요구사항(다양한 길이의 영상 더빙) 충족.
- 고품질, 고용량 영상 콘텐츠의 글로벌 접근성 향상.
- 동남아시아 시장 크리에이터들의 서비스 도입 및 활용 증대 기대.
- 해외 구독자 증가 및 광고 수익 향상에 기여.
커뮤니티 반응
- 배드민턴 유튜브 채널 '풀스윙' 운영자 신두호 크리에이터는 30분까지 확장된 영상 길이로 기존 콘텐츠의 글로벌 제공이 가능해졌으며, 현장감과 전문 용어 번역의 정확성을 장점으로 언급.
- 인기 크리에이터들의 성공 사례 확산으로 페르소닷에이아이 도입 채널 증가 추세.
톤앤매너
본 업데이트는 영상 콘텐츠 제작자들의 실질적인 니즈를 파악하고 이에 맞춰 기술적 성능과 사용성을 향상시킨 실용적인 접근을 보여줍니다. AI 기술을 활용하여 콘텐츠의 글로벌 확산을 지원하고, 사용자 피드백을 적극 반영하여 서비스 경쟁력을 강화하려는 노력이 돋보입니다.
📚 관련 자료
espnet
End-to-end speech processing toolkit으로, 음성 인식(ASR), 음성 합성(TTS), 번역 등의 최신 모델을 학습하고 통합하는 데 사용될 수 있습니다. 이스트소프트의 오토 더빙 서비스에 사용될 수 있는 음성 합성 및 관련 기술 연구에 직접적인 연관이 있습니다.
관련도: 90%
transformers
Hugging Face의 transformers 라이브러리는 NLP 및 오디오 처리 분야에서 최첨단 모델을 제공합니다. 비디오 트랜슬레이션 및 오디오 처리와 관련된 모델 (예: 번역, 음성 인식, 음성 합성) 구현 및 연구에 활용될 수 있습니다.
관련도: 75%
SpeechT5
Microsoft에서 개발한 음성 처리를 위한 unified framework로, 음성 인식, 음성 합성, 음성 번역 등 다양한 음성 관련 작업에 대한 통합된 접근 방식을 제공합니다. 이스트소프트의 AI 비디오 트랜슬레이터 서비스의 핵심 기술인 음성 합성 및 번역 기능 구현에 영감을 주거나 직접적으로 활용될 수 있는 기술입니다.
관련도: 80%