개발 인공지능

D

dev_to

2025. 06. 21

SandboxAQ, AI 기반 약물 발견을 가속화하는 대규모 합성 분자 데이터셋 발표

카테고리

프로그래밍/소프트웨어 개발

서브카테고리

인공지능

대상자

AI/머신러닝 연구자, 약물 발견 분야 개발자, 생물정보학자
중급~고급 수준의 기술 이해가 필요 (예: PyTorch Geometric, DeepChem 활용 경험)

핵심 요약

5.2M개의 3D 분자 구조 데이터가 제공되며, Geometric Deep Learning 모델의 학습/검증에 최적화
SDF, SMILES, InChIKey 등의 형식으로 구성된 데이터는 PyTorch Geometric, DeepChem, RDKit과 호환
약물 유사성, 다양성, 치료 표적 관련성을 기준으로 필터링된 고품질 합성 데이터 제공

섹션별 세부 요약

1. 데이터셋 개요

5.2M개의 3D 분자 구조 포함, 물리 기반 시뮬레이션 및 실험 기록으로 라벨링
Protein binding affinity, chemical class, structural metadata 등 다양한 특성 제공
Onco, Neuro, Immunology 분야의 주요 치료 표적과 관련된 분자만 포함

2. 데이터셋 구성 요소

3D atomic coordinates (SDF), SMILES strings, InChIKeys
Protein target annotations (가능한 경우) 및 binding scores (시뮬레이션/실험 기반)
Molecular descriptors, class labels 포함

3. 생성 및 필터링 과정

Nvidia, Alphabet 자회사 SandboxAQ와 제약사 협업을 통해 생성
AI, 양자 시뮬레이션을 활용한 3D conformer 생성
Drug-likeness, diversity, therapeutic relevance 기준으로 필터링

4. 활용 방안 및 기술적 지원

Graph Neural Networks, Transformer 모델, Molecular Docking 소프트웨어와 연동 가능
MoleculeDataset 클래스를 통해 PyTorch Geometric, DeepChem, RDKit과 호환
예시 코드:

from sandboxaq_loader import MoleculeDataset
dataset = MoleculeDataset("sandboxaq_5m.sdf")
for mol in dataset:
    print(mol.smiles, mol.binding_score)

5. 산업 및 학술 활용

학술 및 비상업 연구에 즉시 제공, 산업 사용자 대상 구독형 확장 계획
AI 기반 약물 발견의 실패율 감소 및 효율성 향상 기대

결론

Geometric Deep Learning 모델 학습을 위한 최고 품질의 합성 데이터셋 제공
PyTorch Geometric, DeepChem 등 프레임워크와의 호환성을 통해 빠른 활용 가능
실무 적용 시 MoleculeDataset 클래스를 활용한 데이터 로딩과 Binding Score 기반 모델 학습이 핵심
학술 분야의 초기 사용 권장 후, 산업 분야 확장을 위한 구독 모델 도입 예정

AI drug discovery synthetic molecule dataset 3D molecular structures geometric deep learning machine learning models drug-target interactions pharmacological properties

목록으로 원문 보기