개발 머신러닝

D

dev_to

2025. 06. 07

VideoPrism: 영상 이해를 위한 기초적인 시각 인코더

카테고리

인공지능

서브카테고리

머신러닝

대상자

*대상자**: 머신러닝 엔지니어, 영상 처리 연구자, AI 모델 개발자
*난이도**: 중급 이상 (모델 아키텍처 및 학습 방법 이해 필요)

핵심 요약

VideoPrism은 識蒸餾(Knowledge Distillation) 기법을 활용한 영상 인코더로, 비디오 전용 데이터로 훈련되어 컴팩트한 모델을 생성합니다.
2단계 학습 프로세스를 통해 전체적 인코딩(Global Embedding)과 로컬 토큰 인코딩을 동시에 수행합니다.
Masked Video Modeling(MVM)은 동결된 비디오 인코더(Frozen Video Encoder)를 사용해 로컬 토큰의 위치 정보를 예측하는 핵심 기법입니다.

섹션별 세부 요약

1. VideoPrism의 핵심 아키텍처

Video-text Contrastive Training: CLIP 유사한 방식으로 비디오 인코더와 풀러(Pooler)를 훈련합니다.
Global Embedding: 비디오 전체의 의미를 포괄하는 전체적 의미 표현을 생성합니다.
Local Token Embedding: 각 프레임의 세부 정보를 로컬 토큰으로 표현하고, 랜덤 섞기(Random Shuffle)를 적용하여 훈련합니다.

2. Masked Video Modeling (MVM)

Video-only 훈련: 텍스트-비디오 쌍 대신 순수 비디오 데이터로 훈련하여 모델의 독립성을 강화합니다.
Frozen Video Encoder: 기존에 학습된 비디오 인코더를 고정하고, 소규모 모델(VideoPrism)이 로컬 토큰 정보를 예측합니다.
MVM의 목적: 로컬 토큰의 위치 복원을 통해 상세한 영상 구조 이해를 도모합니다.

3. Knowledge Distillation 적용

Teacher-Student 모델: 기존의 대규모 모델이 Teacher로, VideoPrism은 Student로 역할을 수행합니다.
Loss 기반 학습: 전체적 및 로컬 토큰의 예측 오차를 기반으로 Student 모델의 업데이트를 수행합니다.
결과: 소규모 모델의 성능 향상과 컴퓨팅 자원 절감을 달성합니다.

결론

VideoPrism은 Knowledge Distillation을 활용해 비디오 전용 데이터로 컴팩트한 모델을 생성하며, Masked Video Modeling을 통해 로컬 토큰의 위치 정보를 학습합니다.
실무 적용 시 대규모 모델의 지식 전달에 초점을 맞춘 소규모 모델 학습이 핵심 전략입니다.

VideoPrism video understanding visual encoder knowledge distillation masked video modeling contrastive training global embedding

목록으로 원문 보기