「论文翻译」Graph convolutional networks for computational drug development and discovery

briefings in Bioinformatics 2019 (B类)

Abstract

尽管在过去十年中深度学习在各个领域都取得了令人瞩目的成功,但其在分子信息学和药物发现中的应用仍然受到限制。在深层架构适应结构化数据方面的最新进展为药物研究开辟了新的范例。在这项调查中,我们对图卷积网络的领域以及图卷积网络在药物发现和分子信息学中的应用进行了系统的综述。通常,我们对图卷积网络为何以及如何可以帮助完成与药物有关的任务感兴趣。我们通过四个角度阐述了现有的应用:分子性质和活性预测,相互作用预测,合成预测和de novo药物设计。我们简要介绍图卷积网络背后的理论基础,并说明基于不同公式的各种体系结构。然后,我们总结了药物相关问题中的代表性应用。我们还将讨论将图卷积网络应用于药物发现的当前挑战和未来可能性。

Introduction

药物开发是一个昂贵且耗时的过程,其中要测试成千上万种化合物并进行实验以找出安全有效的药物。 药物开发的一般过程涉及如Fig. 1所示的步骤。现代药物开发旨在加快中间步骤,从而通过在药物开发和临床前研究阶段利用机器学习工具进行药物开发来降低成本。简而言之,通过逐步进行的一系列测试对分子化合物进行过滤,这些测试确定了它们在后期的特性,有效性和毒性。 越来越多地使用机器学习来更好地预测早期的分子特性,从而可以大大减少后续过程的负荷(例如临床试验),从而节省大量资源和时间。当前,机器学习在开发药物中的应用包括但不限于以下方面:通过广泛采用的定量结构-活性(性质)关系(QSAR / QSPR)模型进行生物活性或物理化学预测; 预测药物-蛋白质和药物-药物对的相互作用; 从头分子设计,产生具有所需药理特性的分子结构; 合成预测,预测合成反应的产物。由于传统的机器学习方法只能处理固定大小的输入,因此,大多数早期时代的药物发现都使用了特征工程,即生成和使用特定于问题的分子描述符。 通常,在这些任务中使用一组特定于问题的分子描述符作为特征。 常用的描述符包括:

  1. 分子指纹,通过一系列表示特定子结构存在的二进制数字来编码分子的结构;
  2. 由统计学家和化学信息学家处理的源自量子/物理化学和微分拓扑的描述符;
  3. 简化的分子输入行输入系统(SMILES)字符串,该字符串独特地描述了分子的结构并将其表示为行符号。 给定预定义的预测变量(即输入变量),然后通过机器学习算法构建分类或预测模型并进行学习。
    在这里插入图片描述
    近年来,越来越多的大型化学数据库可用于药物研究。因此,使用深层神经网络进行药物开发的新尝试已经出现。深度学习[1]取得了令人瞩目的成功,并在过去十年中被广泛用于自然语言处理[2]和计算机视觉[3]等领域的学习任务。深度学习的优势在于它能够从大规模数据中学习输入特征与输出决策之间的复杂关系。它在药物发现和分子信息学中的应用仍处于起步阶段,但已经显示出巨大的潜力。与毒品相关的工作中采用了几种常用的深度架构[4-7],与传统的机器学习方法相比,它们取得了实质性的进步。但是,由于以下原因,深层模型仍然存在局限性。首先,当前大多数深度模型仍基于手工特征或预定义的描述符,从而阻止直接从原始输入中学习结构信息。其次,现有的体系结构不适用于分子等结构化数据。在这些结构的特征提取过程中,既不考虑内部结构信息,也不充分利用结构信息。因此,更适合的架构对于进一步提高药物发现中深度学习的潜力至关重要。

结构化数据,例如图像,已经由卷积神经网络(CNN)成功地处理,卷积神经网络是深度神经网络的特殊体系结构。 CNN可以通过卷积运算符从原始图像中自动提取与任务相关的功能,从而揭示了图像相关任务的最新性能[8]。对于由原子和化学键组成的这类药物和小分子,我们具有不同的类型结构,即图,其中每个原子是一个节点,每个化学键是一个边缘。一个直接的尝试就是将卷积过程类似地应用于分子图。但是,与图像不同,图具有不规则的形状和大小。在节点上没有空间顺序,节点的邻居也与位置有关。因此,常规规则网格状结构上的传统卷积不能直接应用于图上。实际上,现实世界中广泛的结构数据通常以图而不是图像的形式形成,这意味着处理不规则结构的开发方法非常重要且迫切需要。

在整个文献中,人们都在努力对非欧几里德结构化数据上的卷积算符进行泛化,从而形成了所谓的图卷积网络(GCN)。 GCN已被确立为与毒品有关的任务的最新方法,其方式是:(1)通过考虑数据结构提取特征;(2)能够从原始输入而不是手工特征中自动提取特征可能会错过由于领域专家的偏见而导致的重要信息。当前出现的GCN遵循两个主要流。一个可以归纳为空间GCN,它通过对图中所有相邻节点的所有特征向量求和,直接在空间域中表示卷积。另一个称为频谱GCN,它根据频谱图理论在图谱域中定义卷积[9]。最近的工作[10,11]也表明频谱卷积可以被描述为空间卷积的一种特殊情况。但是,由于不同的理论基础,在以下各节中,我们仍将它们视为单独的卷积运算。在两个域中都定义了卷积后,生成型GCN利用卷积过程对隐藏的表示进行编码并生成分子图。

在本次调查中,我们特别关注GCN的最新进展及其在药物发现中的应用,而不是像以前的调查一样在一般深度学习的背景下进行介绍[12-14]。 因此,我们的综述重点是与药物相关的应用,包括最近的应用,旨在帮助读者深入了解新开发的药物发现深度架构的最新进展。 我们总结了Table. 1中最相关的论文。此外,我们还总结了这些研究中已使用的所有数据源,并在以后的章节中提供给公众使用。
在这里插入图片描述
其余内容安排如下:我们在图卷积原理一节中提供了图卷积的理论支持,并详细介绍了GCN的体系结构及其在GCN在药物发现中的应用方面的应用。 药物发现和分子生物信息学数据库部分概述了公共数据源的信息。 讨论部分讨论了当前方法之外的挑战和可能性。

Principles of graph convolution

Application of GCN on drug discovery

在本节中,我们回顾了先前有关计算药物开发和发现的主要应用的研究。 Table. 2列出了通过GCN进行计算药物开发和发现的不同任务的开源代码。
在这里插入图片描述

Quantitative Structure Activity/Property Relationship Prediction

QSAR(QSPR)可以预测生物学活性(化学性质)和分子描述符之间的关系。 关于这个问题的机器学习方法已经在文献中得到了广泛的探索[50-52]。 对于大多数与药物有关的计算方法,一个基本问题是要处理哪种类型的输入表示形式。 手工制作的特征无法完全编码分子图的结构信息。 此外,这些预定义的输入不是数据/任务驱动的,因此预测能力较低。 因此引入GCN来克服上述限制。

Biological property and activity

Duvenaud等人[28]首先提出了一种使用神经网络生成可区分且由数据驱动的指纹的方法。在这项研究中,规则的圆形指纹中的哈希函数(编码分子中每个原子的子结构)被替换为平滑函数。在这里,圆形指纹被设计为以不变于原子重新标记的方式编码分子中存在的亚结构[53]。因此,人们学会了用一个实值向量表示一个分子而不是一个二进制向量,这被称为神经指纹。分子的最终表示形式是通过汇总所有原子的表示形式而获得的,该表示形式穿过softmax层,该层能够解释所学特征。从聚集邻居信息以更新中心原子的意义上说,编码过程是卷积的,并且对具有相同邻居大小(范围为1至5)的原子及其相邻原子应用相同的局部过滤器。作者评估了所生成的指纹的几种药物特性,包括溶解度,药物功效和有机光伏效率,其中神经指纹优于传统的圆形指纹。而且,这些表示是可以解释的,使得与预测强烈相关的特征被分子结构中的某些片段所激活。但是,一个不足之处在于,与建立在预先计算的指纹之上的模型相比,训练指纹和预测模型都需要花费更多的时间,尤其是对于大型数据集。

除了节点特征或标签外,边缘信息也很重要,也可以在图卷积中进行编码。 Kearnes等人[29]提出了一种图形卷积框架来学习考虑节点和边缘特征的数据驱动任务的分子表示。具体来说,每一层都包含原子表示和成对(边缘)表示。所有关系模块的传播都跨越了不同的层:原子对原子(A→A),原子对对(A→P),对原子(P→A)和对对(P→P),形成一个编织模块。每层都遵循这种编织模块架构,而在最后一个卷积层,仅原子表示用于下游任务。通过神经网络可以实现跨相同表示(A→A,P→P)的转换。为了在不同表示(A→P,P→A)之间进行转换,在特征变换之后使用了额外的顺序不变的聚合操作。作者评估了259个数据集的生物活性方法,这些数据集由PCBA [54],Rohrer和Baumann构建的“最大无偏验证”数据集[55],有用诱饵的增强目录[56]和训练集Tox21挑战[57],在多任务环境中同时预测活动。输入是具有原子特征以及原子对特征的分子图。然后将建议的方法与使用RDKit生成的Morgan指纹的基线方法进行比较。拟议的WeaveNet并没有始终超越现有技术,但提供了一种除了节点功能之外还整合了边缘功能的方法。

Liu等人[33]也有类似的应用。 在这里,作者使用GCN开发了吸收,分布,代谢和排泄(ADME)属性预测系统。 卷积运算符类似于编织模块。 对于每个原子,首先通过完全连接的层转换邻域信息,然后使用不同的reduce运算符进行汇总和归约。 然后,通过将所有归约运算符(包括最大值,求和值和平均值)的结果进行级联来形成中心原子的表示形式。 然后将简化的表示形式与原子输入特征组合。 还针对五个选定的ADME终点对多任务方案进行了评估:人微粒体清除率,人CYP450抑制力,水平衡溶解度,孕烷X受体诱导和生物利用度,与基于规则的化学方法相比,拟议的Chemi-Net实现了改进 预测模型。为了获得分子表示,大多数先前的研究对原子水平表示进行求和或平均,但忽略了分子的图结构。 李等[32] 介绍了一种使用GCN生成图形级表示形式的替代方法。 作者通过引入虚拟超级节点(假定通过有向边连接到图中的所有节点)来实现其目标。 节

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值