DeepSeek Nano-VLLM 로컬 설치 가이드
AI Store에서 AI코딩으로 만들어진 앱을 만나보세요!
지금 바로 방문하기

DeepSeek Nano-VLLM 로컬 설치 가이드

카테고리

프로그래밍/소프트웨어 개발

서브카테고리

개발 툴

대상자

  • 대상자: AI/머신러닝 개발자, 데스크톱/클라우드 인프라 관리자
  • 난이도: 중급 (Linux 명령어, Conda, CUDA 환경 구성 경험이 필요)

핵심 요약

  • 필수 환경 요건: Python 3.10/3.11, NVIDIA GPU(16GB VRAM 이상), CUDA 12.0+
  • 커스텀 Docker 이미지 사용: nvidia/cuda:12.1.1-devel-ubuntu22.04 선택 필수 (CUDA 툴킷 포함)
  • 모델 로드 방식: Hugging Face에서 Qwen/Qwen3-0.6B 가중치 수동 다운로드 필요 (이미지 없음 시 오류 발생)

섹션별 세부 요약

1. **환경 설정 전 요구사항**

  • 운영체제: Ubuntu 22.04 기반 Linux
  • GPU 사양: RTX A6000 이상 권장 (16GB VRAM)
  • CUDA 버전: 12.0 이상 (nvcc 포함)
  • 도구: git, wget, huggingface-cli 설치 필수

2. **GPU 가상 머신 생성**

  • NodeShift 플랫폼 사용: GPU 노드 생성 (H100/A100 GPU 선택 가능)
  • 인증 방식: SSH 키 권장 (보안성 향상)
  • 커스텀 이미지 선택: nvidia/cuda:12.1.1-devel-ubuntu22.04 사용 (CUDA 개발 환경 제공)

3. **Miniconda 설치 및 환경 구성**

  • Miniconda 설치: Linux/macOS: wget으로 스크립트 다운로드 후 실행
  • Conda 환경 생성: conda create -n nano python=3.11 -y 명령어 사용
  • 환경 활성화: conda initsource ~/.bashrc 실행

4. **의존성 설치 및 모델 다운로드**

  • 필수 패키지 설치:

```bash

pip install torch torchvision torchaudio --index-url

pip install git+https://github.com/GeeeekExplorer/nano-vllm.git

pip install huggingface_hub

```

  • 모델 다운로드:

```bash

huggingface-cli download --resume-download Qwen/Qwen3-0.6B --local-dir checkpoints

```

(로컬 폴더에 가중치 저장 필수)

5. **Nano-VLLM 실행**

  • VS Code 연결: Remote-SSH로 VM 접속 후 /root/nano-vllm 폴더 열기
  • 앱 실행: app.py 파일 생성 후 다음 코드 실행

```python

from nanovllm import LLM, SamplingParams

llm = LLM("/YOUR/MODEL/PATH", enforce_eager=True, tensor_parallel_size=1)

sampling_params = SamplingParams(temperature=0.6, max_tokens=256)

prompts = ["Hello, Nano-vLLM"]

outputs = llm.generate(prompts, sampling_params)

```

결론

  • 핵심 팁: CUDA 12.1.1 호환 이미지 사용, Hugging Face 토큰 인증 필수, enforce_eager=True로 메모리 최적화
  • 성능 최적화: RTX A6000 이상 GPU 사용 시 Qwen3-0.6B 모델 빠른 추론 가능
  • 주의사항: 모델 가중치는 --local-dir로 로컬 저장 후 사용해야 함