DeepSeek Nano-VLLM 로컬 설치 가이드

카테고리

프로그래밍/소프트웨어 개발

서브카테고리

개발 툴

대상자

대상자: AI/머신러닝 개발자, 데스크톱/클라우드 인프라 관리자
난이도: 중급 (Linux 명령어, Conda, CUDA 환경 구성 경험이 필요)

핵심 요약

필수 환경 요건: Python 3.10/3.11, NVIDIA GPU(16GB VRAM 이상), CUDA 12.0+
커스텀 Docker 이미지 사용: nvidia/cuda:12.1.1-devel-ubuntu22.04 선택 필수 (CUDA 툴킷 포함)
모델 로드 방식: Hugging Face에서 Qwen/Qwen3-0.6B 가중치 수동 다운로드 필요 (이미지 없음 시 오류 발생)

섹션별 세부 요약

1. 환경 설정 전 요구사항

운영체제: Ubuntu 22.04 기반 Linux
GPU 사양: RTX A6000 이상 권장 (16GB VRAM)
CUDA 버전: 12.0 이상 (nvcc 포함)
도구: git, wget, huggingface-cli 설치 필수

2. GPU 가상 머신 생성

NodeShift 플랫폼 사용: GPU 노드 생성 (H100/A100 GPU 선택 가능)
인증 방식: SSH 키 권장 (보안성 향상)
커스텀 이미지 선택: nvidia/cuda:12.1.1-devel-ubuntu22.04 사용 (CUDA 개발 환경 제공)

3. Miniconda 설치 및 환경 구성

Miniconda 설치: Linux/macOS: wget으로 스크립트 다운로드 후 실행
Conda 환경 생성: conda create -n nano python=3.11 -y 명령어 사용
환경 활성화: conda init → source ~/.bashrc 실행

4. 의존성 설치 및 모델 다운로드

필수 패키지 설치:

```bash

pip install torch torchvision torchaudio --index-url

pip install git+https://github.com/GeeeekExplorer/nano-vllm.git

pip install huggingface_hub

```

모델 다운로드:

```bash

huggingface-cli download --resume-download Qwen/Qwen3-0.6B --local-dir checkpoints

```

(로컬 폴더에 가중치 저장 필수)

5. Nano-VLLM 실행

VS Code 연결: Remote-SSH로 VM 접속 후 /root/nano-vllm 폴더 열기
앱 실행: app.py 파일 생성 후 다음 코드 실행

```python

from nanovllm import LLM, SamplingParams

llm = LLM("/YOUR/MODEL/PATH", enforce_eager=True, tensor_parallel_size=1)

sampling_params = SamplingParams(temperature=0.6, max_tokens=256)

prompts = ["Hello, Nano-vLLM"]

outputs = llm.generate(prompts, sampling_params)

```

결론

핵심 팁: CUDA 12.1.1 호환 이미지 사용, Hugging Face 토큰 인증 필수, enforce_eager=True로 메모리 최적화
성능 최적화: RTX A6000 이상 GPU 사용 시 Qwen3-0.6B 모델 빠른 추론 가능
주의사항: 모델 가중치는 --local-dir로 로컬 저장 후 사용해야 함

DeepSeek Nano-VLLM 로컬 설치 가이드

카테고리

서브카테고리

대상자

핵심 요약

섹션별 세부 요약

1. **환경 설정 전 요구사항**

2. **GPU 가상 머신 생성**

3. **Miniconda 설치 및 환경 구성**

4. **의존성 설치 및 모델 다운로드**

5. **Nano-VLLM 실행**

결론

1. 환경 설정 전 요구사항

2. GPU 가상 머신 생성

3. Miniconda 설치 및 환경 구성

4. 의존성 설치 및 모델 다운로드

5. Nano-VLLM 실행