DeepSeek Nano-VLLM 로컬 설치 가이드
카테고리
프로그래밍/소프트웨어 개발
서브카테고리
개발 툴
대상자
- 대상자: AI/머신러닝 개발자, 데스크톱/클라우드 인프라 관리자
- 난이도: 중급 (Linux 명령어, Conda, CUDA 환경 구성 경험이 필요)
핵심 요약
- 필수 환경 요건: Python 3.10/3.11, NVIDIA GPU(16GB VRAM 이상), CUDA 12.0+
- 커스텀 Docker 이미지 사용:
nvidia/cuda:12.1.1-devel-ubuntu22.04
선택 필수 (CUDA 툴킷 포함) - 모델 로드 방식: Hugging Face에서
Qwen/Qwen3-0.6B
가중치 수동 다운로드 필요 (이미지 없음 시 오류 발생)
섹션별 세부 요약
1. **환경 설정 전 요구사항**
- 운영체제: Ubuntu 22.04 기반 Linux
- GPU 사양: RTX A6000 이상 권장 (16GB VRAM)
- CUDA 버전: 12.0 이상 (nvcc 포함)
- 도구:
git
,wget
,huggingface-cli
설치 필수
2. **GPU 가상 머신 생성**
- NodeShift 플랫폼 사용: GPU 노드 생성 (H100/A100 GPU 선택 가능)
- 인증 방식: SSH 키 권장 (보안성 향상)
- 커스텀 이미지 선택:
nvidia/cuda:12.1.1-devel-ubuntu22.04
사용 (CUDA 개발 환경 제공)
3. **Miniconda 설치 및 환경 구성**
- Miniconda 설치: Linux/macOS:
wget
으로 스크립트 다운로드 후 실행 - Conda 환경 생성:
conda create -n nano python=3.11 -y
명령어 사용 - 환경 활성화:
conda init
→source ~/.bashrc
실행
4. **의존성 설치 및 모델 다운로드**
- 필수 패키지 설치:
```bash
pip install torch torchvision torchaudio --index-url
pip install git+https://github.com/GeeeekExplorer/nano-vllm.git
pip install huggingface_hub
```
- 모델 다운로드:
```bash
huggingface-cli download --resume-download Qwen/Qwen3-0.6B --local-dir checkpoints
```
(로컬 폴더에 가중치 저장 필수)
5. **Nano-VLLM 실행**
- VS Code 연결: Remote-SSH로 VM 접속 후
/root/nano-vllm
폴더 열기 - 앱 실행:
app.py
파일 생성 후 다음 코드 실행
```python
from nanovllm import LLM, SamplingParams
llm = LLM("/YOUR/MODEL/PATH", enforce_eager=True, tensor_parallel_size=1)
sampling_params = SamplingParams(temperature=0.6, max_tokens=256)
prompts = ["Hello, Nano-vLLM"]
outputs = llm.generate(prompts, sampling_params)
```
결론
- 핵심 팁: CUDA 12.1.1 호환 이미지 사용, Hugging Face 토큰 인증 필수,
enforce_eager=True
로 메모리 최적화 - 성능 최적화: RTX A6000 이상 GPU 사용 시 Qwen3-0.6B 모델 빠른 추론 가능
- 주의사항: 모델 가중치는
--local-dir
로 로컬 저장 후 사용해야 함