MoleculeNet
这是2018年斯坦福大学Vijay Pande组的文章。
https://github.com/materialsvirtuallab/megnet
背景:数据驱动分析成为许多化学合成物应用的常规步骤。
问题:标准评价平台的缺失限制了发展。
挑战:数据少,要预测很广泛的性能,分子要转化成一个固定维度的表达(输入分子结构的heterogeneity异质性),合适的学习算法。
目标:收集数据集,创建软件来实现分子特征化的现有方法;实现已提出算法的高质量复现。
意义:更好的发展和提高学习分子性能模型。
Methods
基于开源包DeepChem
Datasets
按照性能分为四类:量子力学,物理化学,生物物理学和生理学。
数据划分:Random Split, Scaffold Split, Stratified Split, Time Split.
Metrics
回归任务:MAE,RMSE
分类任务:AUC-ROC, AUC-PRC
Featurization
Extended-Connectivity Fingerprints (ECFP)扩展连接指纹 (ECFP)
Coulomb matrix库仑矩阵
Grid featurizer网格特征
Symmetry function对称函数
Graph convolutions.图卷积
Weave编织
Models
conventional models
logistic regression逻辑回归, support vector classification支持向量分类, kernel ridge regression核岭回归, random forests随机森林, gradient boosting梯度提升, multitask networks多任务网络, bypass networks旁路网络 and influence relevance voting影响相关性投票
Graph based models
raph convolutional models图卷积模型, weave models编织网络, directed acyclic graph models有向无环图模型, deep tensor neural networks深度张量神经网络, ANI-1 and message passing neural networks信息传递神经网络.