Build Scientific LLM Pipeline: From Data to Hugging Face

과학적 LLM 파이프라인 구축: 원천 데이터에서 Hugging Face까지

카테고리

프로그래밍/소프트웨어 개발

서브카테고리

인공지능

대상자

AI/ML 개발자, 과학 연구자 및 데이터 과학자 (중급~고급)

핵심 요약

  • 과학적 LLM 파이프라인NEXA-MOE-MINI 모델을 위한 325M 토큰 규모의 과학적 데이터 코퍼스를 생성
  • 모듈화된 아키텍처arXiv, PubMed, FineWeb-Edu 데이터를 처리하며, QLoRA 최적화를 통해 110M 파라미터의 Mixture-of-Experts(MoE) 모델을 훈련
  • Hugging Face에 공개된 데이터셋을 통해 재현성과 협업을 지원하는 "Research OS" 형태로 설계
  • 熵 기반 필터링(EntropyRanker)으로 낮은 정보량 데이터 제거, Semantic Tagging으로 정확한 MoE 라우팅
  • 모듈화된 설계로 새로운 데이터 소스(예: Semantic Scholar) 추가 및 확장 가능

섹션별 세부 요약

1. 데이터 생성 엔진 (main2.py)

  • 데이터 수집:

- arXiv: physics, q-bio, cond-mat.mtrl-sci 등 9,000개 논문 수집

- PubMed: Biopython의 Entrez API로 3,000개 생물학 추상 수집

- FineWeb-Edu: Hugging FaceFineWeb-Edu에서 30,000개 교육 콘텐츠 샘플 스트리밍

  • 데이터 정제:

- clean_text()로 특수 문자 및 불필요한 텍스트 제거

- segment_paragraphs()로 의미적 단위로 분할

- QLoRAPreprocessor로 과학적 어휘 최적화된 토큰화

  • 메타데이터 태깅:

- 도메인 태그: [PHYS], [BIO], [MAT]

- 태스크 태그: [HYP], [MTH], [EXP]

- 라우팅 태그: [GEN], [SPEC:QuantumPhysics]

  • 필터링:

- EntropyRanker로 Shannon 엔트로피 계산 후 낮은 정보량 샘플 제거

- 500M 원천 토큰325M 정제 토큰 + 300k 지시문 형식 샘플 생성

2. 자동 업로드 도구 (hf_upload.py)

  • 파일 형식 변환:

- JSONLArrow 형식으로 압축 (15GB → 3.13GB)

- 10MB 단위로 분할Git LFS 호환 처리

  • Hugging Face 통합:

- huggingface_hub.HfApiRepository를 통해 Allanatrix/Scientific_Research_Tokenized 저장소 관리

- 네트워크 중단 대응: 최대 3회 재시도 (30초 백오프)

- 버전 관리: Upload dataset 2025-06-06T15:41:00 형식의 커밋 메시지

3. NEXA-MOE-MINI 모델 훈련

  • 모델 구조:

- BERT 기반 라우터 (110M 파라미터) + T5 기반 전문가 3개 (60M each)

- 소프트 라우팅 (top-k=1)으로 태스크별 전문가 선택

  • 훈련 환경:

- 하드웨어: Intel i5 vPro, NVIDIA T4 GPU 2개

- 최적화: Mixed Precision (FP16/BF16), Gradient Checkpointing, AzureSky Optimizer

  • 성능 지표:

- 2 T4 GPU에서 21 GFLOPS, 60% 활용도

- 325M 토큰 훈련 시간: 약 40시간 (Kaggle GPU)

4. 완전한 파이프라인: Research OS

  • 모듈화 아키텍처:

- 데이터 생성: 새로운 소스(예: OpenAlex) 추가 가능

- 훈련 인프라: 전문가 교체 및 동적 라우팅 지원

- 공유: Hugging Face에 공개된 데이터셋/모델

  • 성능:

- 500M 토큰 처리: 약 10–12시간

- 데이터셋 업로드: 3.13GB 약 1–2시간

결론

  • 모듈화된 설계EntropyRanker 기반 필터링을 통해 과학적 데이터 품질 향상
  • Hugging Face 공개를 통해 재현성 및 협업 지원
  • NEXA-COD (425–500M 토큰), SCOUT (신규 가설 탐색), ULTRAMAX (2.2B 파라미터, 20,000-token 컨텍스트) 등 향후 확장 가능
  • 저비용 하드웨어 (Intel i5 + T4 GPU)로도 실행 가능한 확장 가능한 파이프라인 설계