SandboxAQ, AI 기반 약물 발견을 가속화하는 대규모 합성 분자 데이터셋 발표

카테고리

프로그래밍/소프트웨어 개발

서브카테고리

인공지능

대상자

  • AI/머신러닝 연구자, 약물 발견 분야 개발자, 생물정보학자
  • 중급~고급 수준의 기술 이해가 필요 (예: PyTorch Geometric, DeepChem 활용 경험)

핵심 요약

  • 5.2M개의 3D 분자 구조 데이터가 제공되며, Geometric Deep Learning 모델의 학습/검증에 최적화
  • SDF, SMILES, InChIKey 등의 형식으로 구성된 데이터는 PyTorch Geometric, DeepChem, RDKit과 호환
  • 약물 유사성, 다양성, 치료 표적 관련성을 기준으로 필터링된 고품질 합성 데이터 제공

섹션별 세부 요약

1. 데이터셋 개요

  • 5.2M개의 3D 분자 구조 포함, 물리 기반 시뮬레이션 및 실험 기록으로 라벨링
  • Protein binding affinity, chemical class, structural metadata 등 다양한 특성 제공
  • Onco, Neuro, Immunology 분야의 주요 치료 표적과 관련된 분자만 포함

2. 데이터셋 구성 요소

  • 3D atomic coordinates (SDF), SMILES strings, InChIKeys
  • Protein target annotations (가능한 경우) 및 binding scores (시뮬레이션/실험 기반)
  • Molecular descriptors, class labels 포함

3. 생성 및 필터링 과정

  • Nvidia, Alphabet 자회사 SandboxAQ와 제약사 협업을 통해 생성
  • AI, 양자 시뮬레이션을 활용한 3D conformer 생성
  • Drug-likeness, diversity, therapeutic relevance 기준으로 필터링

4. 활용 방안 및 기술적 지원

  • Graph Neural Networks, Transformer 모델, Molecular Docking 소프트웨어와 연동 가능
  • MoleculeDataset 클래스를 통해 PyTorch Geometric, DeepChem, RDKit과 호환
  • 예시 코드:
  • from sandboxaq_loader import MoleculeDataset
    dataset = MoleculeDataset("sandboxaq_5m.sdf")
    for mol in dataset:
        print(mol.smiles, mol.binding_score)

5. 산업 및 학술 활용

  • 학술 및 비상업 연구에 즉시 제공, 산업 사용자 대상 구독형 확장 계획
  • AI 기반 약물 발견의 실패율 감소 및 효율성 향상 기대

결론

  • Geometric Deep Learning 모델 학습을 위한 최고 품질의 합성 데이터셋 제공
  • PyTorch Geometric, DeepChem 등 프레임워크와의 호환성을 통해 빠른 활용 가능
  • 실무 적용 시 MoleculeDataset 클래스를 활용한 데이터 로딩과 Binding Score 기반 모델 학습이 핵심
  • 학술 분야의 초기 사용 권장 후, 산업 분야 확장을 위한 구독 모델 도입 예정