개발 인공지능, 머신러닝

A

aitimes

2025. 05. 31

월드 모델 기반 실시간 인터랙티브 비디오 생성 기술 등장

월드 모델 기반 ‘실시간 인터랙티브 비디오 생성’ 기술 등장..."동영상 AI와 달라"

카테고리

프로그래밍/소프트웨어 개발

서브카테고리

인공지능, 머신러닝

대상자

*개발자, AI 연구자, 콘텐츠 크리에이터**
난이도: 중급 이상 (AI 모델 아키텍처 및 실시간 처리 기술 이해 필요)*

핵심 요약

월드 모델(WM)은 사용자 입력에 따라 실시간으로 프레임 생성하며, AI 기반 동영상 생성 모델과 구조적 차이가 있음
WM 아키텍처는 현재 상태(state)와 사용자 행동(action)을 기반으로 다음 상태 예측하는 방식을 채택
인터랙티브 비디오는 5분 이상 스트리밍 가능하며 픽셀 생성, 공간 일관성 유지, 동작 학습 등 고도화된 특성 보유

섹션별 세부 요약

###1. 기술 개요 및 특징

오디세이 스타트업이 WASD 키로 사용자 이동 가능한 인터랙티브 비디오 기술 공개
40ms 간격으로 프레임 생성하여 실시간 전송, 360도 카메라 데이터 기반의 현실감 있는 환경 구축
AI 기반 동영상 생성과 차별화된 시간 흐름 관리, 장면의 공간적 일관성 유지 등 핵심 기능

###2. 월드 모델 아키텍처 비교

동영상 생성 AI는 고정된 프레임 수 생성 및 구조화된 임베딩 기반의 단순 클립 생성 방식
WM은 입력 간격 유연성을 갖춘 상태-행동 예측 구조로, 사용자 상호작용 반영 가능
실시간성과 다이나믹한 환경 변화가 인터랙티브 비디오에 필수적임

###3. 현재 상태 및 개선 방향

실험적 데모 제공 중, 구조 변환, 벽 통과, 자동 움직임 등 불안정한 요소 존재
뉴럴 네트워크 필터로 노이즈 처리, 언리얼 엔진, 블렌더 등 편집 도구와 연동 계획

###4. 미래 계획 및 활용 가능성

홀로덱(Holodeck) 구현 목표, 교육, 광고, 영화, 훈련 등 다양한 분야 적용 가능성
H100 GPU 클러스터 기반 초당 30프레임 스트리밍, 시간당 1~2달러 사용료 모델

결론

월드 모델 기반 인터랙티브 비디오는 AI 기반 동영상 생성과 구조적 차이를 가지며, 사용자 상호작용 반영이 가능한 새로운 매체로 자리매김 중
현재는 실험 단계이지만, 콘텐츠 산업에 혁신을 가져올 잠재력 보유
기술 개선을 위한 노이즈 처리 기술 및 편집 도구 연동이 필수적

월드 모델 인터랙티브 비디오 AI 실시간 생성 사용자 상호작용 게임 엔진 스태트업

목록으로 원문 보기