我们介绍了一种直接在图上操作的卷积神经网络。这些网络允许端到端学习预测管道,其输入是任意大小和形状的图形。我们提出的体系结构概括了基于圆形指纹的标准分子特征提取方法。我们表明,这些数据驱动的特征更具有可解释性,并且在各种任务中具有更好的预测性能。
最近的材料设计工作使用神经网络来预测新分子的性质,从例子中归纳。这个任务的一个困难是,输入到预测器的分子,可以是任意大小和形状。目前,大多数机器学习管道只能处理固定大小的输入。目前的技术是使用现成的指纹软件来计算固定维的特征向量,并将这些特征作为全连接深度神经网络或其他标准机器学习方法的输入。这个公式后面是(28日3、19)。在训练过程中,分子指纹向量被视为固定的。在本文中,我们用一个输入为原始分子图的可微神经网络代替了该堆栈的底层——计算分子指纹向量的函数。在这个图中,顶点代表单个原子,边代表键。这个网络的底层是卷积的,因为相同的局部过滤器被应用到每个原子和它的邻居。经过几个这样的层之后,一个全局池步骤结合了分子中所有原子的特征。
这些神经图指纹比固定指纹有几个优点:
预测性能。通过使用数据适应手头的任务,机器优化的指纹可以提供比固定指纹更好的预测性能。
我们表明,神经图指纹匹配或优于标准指纹在溶解度、药物疗效和有机光电效率数据集的预测性能。
可解释性。标准指纹完全清晰地编码每个可能的片段,没有片段之间的相似性概念。相比之下,神经图指纹的每个特征都可以被相似但不同的分子片段激活,使特征表示更有意义。
圆形的指纹:
分子指纹的最新技术是可扩展的连通性循环指纹(森林)[21]。圆形指纹[6]是摩根算法[17]的一种改进,设计用于编码分子中存在的子结构,以一种不受原子重标影响的方式。圆形指纹通过将固定的哈希函数应用到前一层相邻区域的连接特征上,从而生成每一层的特征。这些哈希的结果被当作整数索引,其中1被写入指纹向量在图中每个节点的特征向量所给出的索引处。图1(左)显示了这个计算架构的草图。忽略碰撞,指纹的每个索引表示一个特定子结构的存在。每个索引所代表的子结构的大小取决于网络的深度。因此层的数量被称为指纹的“半径”。环形指纹类似于卷积网络,因为它们在局部各处应用相同的操作,并在一个

本文介绍了一种新型的卷积神经网络,它能直接在分子图上操作,以学习分子指纹。这种方法优于传统的固定指纹,提供更好的预测性能和可解释性。网络的每一层对原子和它们的邻居应用卷积操作,然后通过全局池化步骤整合信息。实验表明,神经图指纹在溶解度、药物疗效和有机光电效率等任务中表现出色。
最低0.47元/天 解锁文章
1893

被折叠的 条评论
为什么被折叠?



