개발 인공지능, 머신러닝, DevOps

V

velog

2025. 06. 30

LLM Engineering Book Review: Key Concepts & Tools for ML Eng

[책 리뷰] LLM 엔지니어링 - 폴 이우수틴, 막심 라본

카테고리

프로그래밍/소프트웨어 개발

서브카테고리

인공지능, 머신러닝, DevOps

대상자

*중급~고급 ML 엔지니어 및 개발자** (ML 시스템 아키텍처 설계, MLOps 실무 경험이 있는 독자)
*난이도**: 고급(구조 설계, 도구 활용, 실무 적용 중심)

핵심 요약

LLM Twin 시스템 구축을 위한 FTI(Feature-Training-Inference) 아키텍처가 핵심 설계 원칙
ZenML, Qdrant, MongoDB 등 MLOps 도구와 인프라 구성 요소 강조
MVP 전략 기반의 점진적 확장과 도메인 주도 설계(DDD) 적용 필요성

섹션별 세부 요약

1. LLM Twin 개념과 아키텍처 이해

MVP 전략으로 핵심 기능 정의 (제품 관점의 프로세스 구성)
FTI 아키텍처 구조: 원시 데이터 수집 → Feature Store → Model Registry → Inference
실시간 학습 전환의 어려움과 Training-Serving Skew 방지의 중요성

2. 도구 및 설치

Python 환경 관리: pyenv, poetry, poethepoet 활용
MLOps 도구:
ZenML: DAG 기반 워크플로우 엔진 (SageMaker, Airflow와 호환)
Qdrant: 벡터 검색 DB (RAG 시스템과 호환)
MongoDB: 비정형 데이터 저장소 (데이터 웨어하우스 역할)

3. 데이터 엔지니어링

데이터 카테고리 중심 수집 체계:
Medium(아티클), GitHub(레포지토리), LinkedIn(게시물) 등 플랫폼별 데이터 구조화
ZenML Pipeline: get_or_create_user, crawl_links 단계를 통해 MongoDB에 저장
크롤러 디스패처 패턴: URL 패턴에 따라 MediumCrawler, GithubCrawler 자동 선택

4. RAG 특성 파이프라인

MongoDB → Qdrant Vector DB로의 특성 변환 과정
RAG 시스템 최적화: 대규모 임베딩 데이터 저장 및 검색 성능 강화
SaaS 도구 활용: Weights & Biases (실험 추적), Prompt Monitoring (프롬프트 기반 실험 분석)

5. 지도 학습 파인튜닝

모델 평가 방법론: 정량적 지표(손실, gradient norm)와 QA 프로세스 강조
도메인 특화 모델 평가의 어려움과 해결 방안 제시

결론

LLM Twin 프로젝트는 실습과 R&D 반복을 통해 완성도를 높이자
MVP 전략과 FTI 아키텍처를 기반으로 점진적 확장 필요
ZenML, Qdrant, MongoDB 도구 활용을 통해 고응집/저결합 시스템 구현
실제 운영환경에 맞춘 데이터셋 커스터마이징과 도메인 특화 평가 프로세스 설계 필수

LLM Engineering MLOps LLM Twin Feature Store ZenML Pipeline Data Engineering

목록으로 원문 보기