Sarvam-M 로컬 설치 및 실행 가이드
카테고리
프로그래밍/소프트웨어 개발
서브카테고리
인공지능
대상자
AI 모델 개발자, 데이터 과학자, GPU 환경 구축자
(난이도: 중상급 - GPU 설정 및 Python 환경 구성 필요)
핵심 요약
- Sarvam-M은 Mistral-Small 기반의 다국어 하이브리드 추론 모델로, 인도어 언어 및 수학 문제에서 +86% 성능 향상
- GPU 가상 머신(NodeShift)을 통해 RTX A6000 GPU 사용, Python 3.11 환경 구성 필수
- Gradio 웹 인터페이스 생성 시
AutoModelForCausalLM
,torch_dtype="auto"
등 Transformers 라이브러리 사용
섹션별 세부 요약
1. Sarvam-M 개요 및 성능
- 다국어 지원 (인도어 언어 및 로마자 변환 지원)
- 수학 문제 해결 +21.6% 향상, 코딩 능력 +17.6% 향상
- 하이브리드 추론 모드 지원 (복잡한 문제 해결 및 일반 대화 전환 가능)
2. GPU 가상 머신 구축 (NodeShift)
- GPU Nodes 선택: H100/A100/RTX A6000 등 다양한 GPU 모델 지원
- SSH 키 인증 사용 권장 (보안 강화)
- NVIDIA Cuda 가상 머신 이미지 선택 (Sarvam-M 설치 필수)
3. Python 환경 설정
- 기본 Python 3.8.1 사용, Python 3.11 설치 필요
- deadsnakes PPA를 통해 Python 버전 업그레이드
sudo update-alternatives
명령어로 Python 3.11을 기본 버전으로 설정
4. 모델 설치 및 실행
- Transformers 라이브러리 설치:
pip install torch transformers accelerate
- 모델 로드 코드:
from transformers import AutoModelForCausalLM, AutoTokenizer
model = AutoModelForCausalLM.from_pretrained("sarvamai/sarvam-m", torch_dtype="auto", device_map="auto")
tokenizer.apply_chat_template
활용5. Gradio 웹 인터페이스 생성
- sarvam_transformers_gradio.py 파일 생성
gradio
라이브러리 사용, 7860 포트에서 웹 앱 실행- SSH 포워딩 명령어:
ssh -L 7860:localhost:7860 root@116.127.115.18 -p 26052
결론
- NodeShift GPU 가상 머신 사용 및 Python 3.11 환경 구성이 필수적
- Gradio 인터페이스를 통해 실시간 모델 테스트 가능
- 인도어 언어 및 수학 모델링에 특화된 Sarvam-M의 하이브리드 추론 기능을 활용하여 복잡한 작업 수행 가능