V-JEPA 2 설치 가이드: 로봇 및 AI 에이전트의 실제 세계 상호작용 구현

카테고리

프로그래밍/소프트웨어 개발

서브카테고리

인공지능, 머신러닝

대상자

AI 연구자, ML 엔지니어, 로봇 공학자
중급 이상의 기술적 지식 보유자 (GPU 설정, Anaconda 사용, SSH 연결 등)
로봇 및 AI 에이전트 개발에 관심 있는 개발자

핵심 요약

V-JEPA 2는 1.2B 파라미터의 세계 모델로, RTX A6000 GPU (24GB VRAM) 및 50GB 저장공간이 필요
NodeShift GPU 가상 머신을 통해 클라우드 환경 설정 (SSH 키 기반 보안 연결)
Anaconda 환경에서 vit_giant_xformers_rope 모델과 AutoVideoProcessor를 사용해 영상 처리 및 예측 수행

섹션별 세부 요약

1. 시스템 요구 사항

GPU: RTX 4090 또는 RTX A6000 (24GB VRAM 이상)
저장공간: 50GB 이상 (권장)
소프트웨어: Anaconda 설치 필수
추가: Hugging Face CLI 인증 토큰 필요

2. NodeShift GPU 노드 설정

NodeShift 계정 생성 후 GPU Nodes 메뉴 접근
RTX A6000 48GB GPU + 64vCPUs/63GB RAM/200GB SSD 구성 선택
SSH 키 인증 방식 사용 (보안 강화)
Nvidia Cuda 이미지 선택 후 노드 생성

3. 환경 설정 및 의존성 설치

Anaconda 가상 환경 생성 (python=3.12)

```bash

conda create -n vjepa python=3.12 -y && conda activate vjepa

```

필수 패키지 설치

```bash

pip install torch torchvision torchaudio einops timm pillow huggingface_hub

```

Facebook Research 공식 레포지토리 클론

```bash

git clone https://github.com/facebookresearch/vjepa2.git && cd vjepa2

```

프로젝트 의존성 설치

```bash

pip install -e .

```

libgl1 설치 (시스템에 미설치 시)

```bash

sudo apt install -y libgl1

```

4. 모델 실행 및 예측 코드

Hugging Face CLI 인증

```bash

huggingface-cli login

```

Jupyter Notebook 실행

```bash

conda install -c conda-forge notebook ipywidgets -y && jupyter notebook --allow-root

```

SSH 포트 전달 (원격 서버 접속 시)

```bash

ssh -L 8888:localhost:8888 -p -i root@

```

Python 노트북에서 모델 실행

```python

import torch, torchvision

from transformers import AutoVideoProcessor, AutoModel

model = AutoModel.from_pretrained("facebook/vjepa2")

processor = AutoVideoProcessor.from_pretrained("facebook/vjepa2")

```

결론

NodeShift GPU 노드를 통해 클라우드 환경 구축 후, Anaconda 기반의 의존성 설치를 통해 V-JEPA 2 실행
SSH 키 기반 보안 연결과 Jupyter Notebook을 활용해 원격에서 모델 테스트 가능
vit_giant_xformers_rope 모델과 AutoVideoProcessor를 사용해 영상 예측 및 분석 수행