SandboxAQ, AI 기반 약물 발견을 가속화하는 대규모 합성 분자 데이터셋 발표
카테고리
프로그래밍/소프트웨어 개발
서브카테고리
인공지능
대상자
- AI/머신러닝 연구자, 약물 발견 분야 개발자, 생물정보학자
- 중급~고급 수준의 기술 이해가 필요 (예: PyTorch Geometric, DeepChem 활용 경험)
핵심 요약
- 5.2M개의 3D 분자 구조 데이터가 제공되며, Geometric Deep Learning 모델의 학습/검증에 최적화
- SDF, SMILES, InChIKey 등의 형식으로 구성된 데이터는 PyTorch Geometric, DeepChem, RDKit과 호환
- 약물 유사성, 다양성, 치료 표적 관련성을 기준으로 필터링된 고품질 합성 데이터 제공
섹션별 세부 요약
1. 데이터셋 개요
- 5.2M개의 3D 분자 구조 포함, 물리 기반 시뮬레이션 및 실험 기록으로 라벨링
- Protein binding affinity, chemical class, structural metadata 등 다양한 특성 제공
- Onco, Neuro, Immunology 분야의 주요 치료 표적과 관련된 분자만 포함
2. 데이터셋 구성 요소
- 3D atomic coordinates (SDF), SMILES strings, InChIKeys
- Protein target annotations (가능한 경우) 및 binding scores (시뮬레이션/실험 기반)
- Molecular descriptors, class labels 포함
3. 생성 및 필터링 과정
- Nvidia, Alphabet 자회사 SandboxAQ와 제약사 협업을 통해 생성
- AI, 양자 시뮬레이션을 활용한 3D conformer 생성
- Drug-likeness, diversity, therapeutic relevance 기준으로 필터링
4. 활용 방안 및 기술적 지원
- Graph Neural Networks, Transformer 모델, Molecular Docking 소프트웨어와 연동 가능
- MoleculeDataset 클래스를 통해 PyTorch Geometric, DeepChem, RDKit과 호환
- 예시 코드:
from sandboxaq_loader import MoleculeDataset
dataset = MoleculeDataset("sandboxaq_5m.sdf")
for mol in dataset:
print(mol.smiles, mol.binding_score)
5. 산업 및 학술 활용
- 학술 및 비상업 연구에 즉시 제공, 산업 사용자 대상 구독형 확장 계획
- AI 기반 약물 발견의 실패율 감소 및 효율성 향상 기대
결론
- Geometric Deep Learning 모델 학습을 위한 최고 품질의 합성 데이터셋 제공
- PyTorch Geometric, DeepChem 등 프레임워크와의 호환성을 통해 빠른 활용 가능
- 실무 적용 시
MoleculeDataset
클래스를 활용한 데이터 로딩과 Binding Score 기반 모델 학습이 핵심 - 학술 분야의 초기 사용 권장 후, 산업 분야 확장을 위한 구독 모델 도입 예정