과학적 LLM 파이프라인 구축: 원천 데이터에서 Hugging Face까지
카테고리
프로그래밍/소프트웨어 개발
서브카테고리
인공지능
대상자
AI/ML 개발자, 과학 연구자 및 데이터 과학자 (중급~고급)
핵심 요약
- 과학적 LLM 파이프라인은
NEXA-MOE-MINI
모델을 위한 325M 토큰 규모의 과학적 데이터 코퍼스를 생성 - 모듈화된 아키텍처로
arXiv
,PubMed
,FineWeb-Edu
데이터를 처리하며, QLoRA 최적화를 통해 110M 파라미터의 Mixture-of-Experts(MoE) 모델을 훈련 - Hugging Face에 공개된 데이터셋을 통해 재현성과 협업을 지원하는 "Research OS" 형태로 설계
- 熵 기반 필터링(EntropyRanker)으로 낮은 정보량 데이터 제거, Semantic Tagging으로 정확한 MoE 라우팅
- 모듈화된 설계로 새로운 데이터 소스(예: Semantic Scholar) 추가 및 확장 가능
섹션별 세부 요약
1. 데이터 생성 엔진 (main2.py)
- 데이터 수집:
- arXiv
: physics
, q-bio
, cond-mat.mtrl-sci
등 9,000개 논문 수집
- PubMed
: Biopython의 Entrez API
로 3,000개 생물학 추상 수집
- FineWeb-Edu
: Hugging Face
의 FineWeb-Edu
에서 30,000개 교육 콘텐츠 샘플 스트리밍
- 데이터 정제:
- clean_text()
로 특수 문자 및 불필요한 텍스트 제거
- segment_paragraphs()
로 의미적 단위로 분할
- QLoRAPreprocessor
로 과학적 어휘 최적화된 토큰화
- 메타데이터 태깅:
- 도메인 태그: [PHYS]
, [BIO]
, [MAT]
- 태스크 태그: [HYP]
, [MTH]
, [EXP]
- 라우팅 태그: [GEN]
, [SPEC:QuantumPhysics]
- 필터링:
- EntropyRanker
로 Shannon 엔트로피 계산 후 낮은 정보량 샘플 제거
- 500M 원천 토큰 → 325M 정제 토큰 + 300k 지시문 형식 샘플 생성
2. 자동 업로드 도구 (hf_upload.py)
- 파일 형식 변환:
- JSONL
→ Arrow
형식으로 압축 (15GB → 3.13GB)
- 10MB 단위로 분할 후 Git LFS
호환 처리
- Hugging Face 통합:
- huggingface_hub.HfApi
및 Repository
를 통해 Allanatrix/Scientific_Research_Tokenized
저장소 관리
- 네트워크 중단 대응: 최대 3회 재시도 (30초 백오프)
- 버전 관리: Upload dataset 2025-06-06T15:41:00
형식의 커밋 메시지
3. NEXA-MOE-MINI 모델 훈련
- 모델 구조:
- BERT 기반 라우터 (110M 파라미터) + T5 기반 전문가 3개 (60M each)
- 소프트 라우팅 (top-k=1)으로 태스크별 전문가 선택
- 훈련 환경:
- 하드웨어: Intel i5 vPro
, NVIDIA T4
GPU 2개
- 최적화: Mixed Precision (FP16/BF16)
, Gradient Checkpointing
, AzureSky Optimizer
- 성능 지표:
- 2 T4 GPU에서 21 GFLOPS, 60% 활용도
- 325M 토큰 훈련 시간: 약 40시간 (Kaggle GPU)
4. 완전한 파이프라인: Research OS
- 모듈화 아키텍처:
- 데이터 생성: 새로운 소스(예: OpenAlex) 추가 가능
- 훈련 인프라: 전문가 교체 및 동적 라우팅 지원
- 공유: Hugging Face에 공개된 데이터셋/모델
- 성능:
- 500M 토큰 처리: 약 10–12시간
- 데이터셋 업로드: 3.13GB 약 1–2시간
결론
- 모듈화된 설계와 EntropyRanker 기반 필터링을 통해 과학적 데이터 품질 향상
- Hugging Face 공개를 통해 재현성 및 협업 지원
- NEXA-COD (425–500M 토큰), SCOUT (신규 가설 탐색), ULTRAMAX (2.2B 파라미터, 20,000-token 컨텍스트) 등 향후 확장 가능
- 저비용 하드웨어 (Intel i5 + T4 GPU)로도 실행 가능한 확장 가능한 파이프라인 설계