오디세이, 월드 모델(WM) 기반 인터랙티브 비디오 기술 공개: 사용자 상호작용 실시간 영상 생성
🤖 AI 추천
실시간 인터랙티브 콘텐츠 생성 기술에 관심 있는 AI/ML 개발자, 게임 개발자, XR(확장 현실) 개발자, 인터랙티브 미디어 아티스트 및 기술 리더들에게 유용합니다. 특히 월드 모델(World Model)의 원리를 이해하고 이를 새로운 형태의 비디오 생성에 적용하고자 하는 연구자 및 엔지니어에게 권장됩니다.
🔖 주요 키워드

핵심 기술: 오디세이(Odyssey)는 사용자의 움직임에 실시간으로 반응하여 변화하는 월드 모델(World Model, WM) 기반의 인터랙티브 비디오 기술을 선보였습니다. 이는 기존 동영상 생성 AI와 달리, 사용자의 행동에 따라 다음 프레임을 동적으로 생성하여 몰입감 있는 상호작용 경험을 제공합니다.
기술적 세부사항:
* 월드 모델 아키텍처: 현재 상태(state)와 사용자 행동(action)을 기반으로 다음 상태를 예측하는 구조로, 입력 간격이 유연하여 실시간 사용자 행동 변화에 즉각적으로 대응합니다.
* 인터랙티브 비디오 정의: AI가 과거 상태, 현재 환경, 예측된 동작을 바탕으로 실시간 프레임을 생성하며, 5분 이상의 영상 스트리밍이 가능합니다.
* 주요 특성: 현실감 있는 픽셀 생성, 공간적 일관성 유지, 비디오로부터 동작 학습, 장면의 시간 흐름 관리.
* 상호작용 방식: 1인칭 게임처럼 WASD 키를 사용하여 사용자 스스로 영상 속 공간을 탐험할 수 있습니다.
* 성능: 40ms마다 새로운 프레임을 생성하여 실시간으로 전송하며, 엔비디아 H100 GPU 클러스터에서 초당 최대 30프레임으로 스트리밍됩니다.
* 데이터 소스: 현실 세계를 본뜬 배경은 자체 개발한 360도 배낭형 카메라로 촬영된 데이터를 기반으로 합니다.
* 기존 동영상 AI와의 차이점: 기존 AI는 고정된 프레임 수를 한 번에 생성하고 구조화된 임베딩을 구축하는 반면, WM은 사용자 상호작용에 따른 실시간 변화에 적합하도록 설계되었습니다. 고정된 임베딩은 중간 변화가 없는 단순 영상 클립 생성에는 효과적이나, 인터랙티브 비디오에는 부적합합니다.
개발 임팩트: 이 기술은 전통적인 동영상 AI의 한계를 극복하고, 사용자 참여를 통해 다이나믹하게 변화하는 새로운 형태의 비디오 매체를 창출할 잠재력을 가집니다. 교육, 광고, 영화, 여행, 훈련 등 다양한 영상 콘텐츠 분야에서 혁신을 가져올 것으로 기대됩니다. 또한, 생성된 영상을 언리얼 엔진, 블렌더 등 편집 도구로 불러와 편집하는 소프트웨어 개발도 진행 중입니다.
커뮤니티 반응: 아직 실험적인 단계로, 불안정한 부분(구조 변형, 벽 통과 등)이 존재하지만, 뉴럴 네트워크 필터링 등의 기술로 개선 중임을 밝혔습니다. 초기 데모는 꿈속을 탐험하는 듯한 기묘하고 불안정한 경험을 제공한다고 언급되었습니다.