NeurlPS 2019(A类)
文章目录
Abstract
药物组合的使用通常会导致多药副作用(POSE)。最近的一种方法将POSE预测公式化为药物和蛋白质图上的链接预测问题,并使用图卷积网络(GCN)对其进行求解。但是,由于POSE中复杂的关系,该方法具有很高的计算成本和内存需求。 本文提出了一种灵活的三图信息传播(TIP)模型,该模型在三个子图上运行,通过蛋白质-药物图从蛋白质-蛋白质图传播到药物-药物图,逐步学习表示形式。实验表明,TIP可以将精度提高7%+,时间效率提高83倍,空间效率提高3倍。
1. Introduction
在治疗复杂或同时发生的疾病时,患者通常必须同时服用一种以上的药物,称为多药。由于药物之间的相互作用,这通常会引起其他副作用,即多药副作用(POSE POlypharmacy Side Effects)。图卷积网络(GCN)是一种新兴的图表示学习方法。基于GCN的药物表示学习已显示出POSE预测中的改进性能。POSE预测可以看作是链接预测问题。

Figure 1: 具有两种类型的节点的多模式生物医学图:药物(D)和蛋白质(P),以及三种类型的边:标有b(固定)的蛋白质-蛋白质(P-P)边,标有t(固定)的蛋白质和药物(P-D)边和标有副作用 r ∈ R r \in R r∈R的药物-药物(D-D)边。
如Figure 1所示,可以使用以下方法构造多模式图:
- 边的标签为副作用的药物-药物相互作用(D-D)(例如,根据POSE临床记录)
- 边的标签为t的蛋白质-药物相互作用(P-D)
- 边的标签为b蛋白质-蛋白质相互作用(PP)(例如,根据药理学信息。)
在这样的图表上,Zitnik等人提出了一个基于GCN的Decagon模型,通过局部邻域信息的加权聚合来学习药物/蛋白质表示,并为不同的边的标签分配了不同的权重。它可以预测所有节点之间的所有关系(药物/蛋白质)。 这种方法可以预测具有强大分子源的副作用。然而,由于大量节点和可能的边标签,聚合操作具有高计算成本和高存储需求。


受Decagon模型的启发并受其局限性的启发,我们提出了三图信息传播(TIP)模型,以提高预测精度以及时间和空间效率,如Figure 2所示。我们从与参考文献[16]中相同的多模式生物医学图开始,该图由三个开放的BioSNAP-Decagon数据集构建而成,如Table 1所示。我们建议将其视为三个子图:P-P图,P-D图和D-D图,而不是从整体上看图,如图Figure 1和2所示。TIP仅专注于预测D-D图中的关系(副作用),而不是Decagon中整个图中的所有关系。因此,我们对待药物节点和蛋白质节点的方式有所不同。
具体来说,提示有四个步骤:
- 学习蛋白质在P-P图上的嵌入
- 通过P-D图将此类嵌入传播到D-D图
- 学习最终的药物嵌入
- 预测D-D图上的副作用
TIP将蛋白质和药物嵌入可能具有不同维度的不同空间,而不是与Decagon中相同的空间和维度。这使得能够将灵活的蛋白嵌入作为辅助信息传播到药物嵌入。
这带来了三个主要好处:
- 灵活性:我们设计了与前三个TIP步骤相对应的三个信息传播GCN模块,以及在P-D图(步骤2)中组合蛋白质和药物信息的两种方式。因此,我们可以灵活地设置GCN层的数量,以控制每个模块中考虑的邻居顺序。
- 效率:蛋白质和药物的单独嵌入可以大大提高基于GCN的表示学习和信息传播的时间(83倍)和空间(3倍)效率。
- 准确性:更加集中地学习药物表征可以更好地利用可用数据源,并可以改善POSE预测,例如,在我们的实验中提高了为7.2%。
2 Tri-graph Information Propagation (TIP)
TIP遵循流行的编码器-解码器框架。Figure 2显示了TIP编码器的结构,其中药理学信息通过P-D图从P-P传播到D-D图。通过结合蛋白质嵌入和其他可用的药物信息来产生药物表示。此外,药物嵌入被用作解码器的输入以计算一组副作用指定分数。给定副作用和药物对,评分越高意味着副作用更可能存在。
- TIP Encoder:
我们遵循与GCN,Decagon和R-GCN相同的消息传递神经网络(MPNN)框架。我们的编码器可以看作是一系列不同的MPNN情况。蛋白质和药物输入特征为 V p ∈ R N p × N p \mathbf{V}_{p} \in \mathbb{R}^{N^{p} \times N^{p}} Vp∈RNp×Np和 V d ∈ R N d × N d \mathbf{V}_{d} \in \mathbb{R}^{N^{d} \times N^{d}} Vd∈RNd×Nd, N p / d N^{p / d} Np/d为蛋白质/药物的总数。
- P-P Graph Embedding Module (PPM):
PPM是用于学习蛋白质嵌入的GCN模块。PPM模块的输入是蛋白质特征 h 0 = V p h^{0}=\mathbf{V}_{p} h0=Vp。两个隐藏层之间的关系由下式给出:
h ( p i ) k + 1 = ReLU ( 1 c i ∑ j ∈ N i W p k h ( p j ) k + h ( p i ) k ) h_{\left(p_{i}\right)}^{k+1}=\operatorname{ReLU}\left(\frac{1}{c_{i}} \sum_{j \in \mathcal{N}_{i}} W_{p}^{k} h_{\left(p_{j}\right)}^{k}+h_{\left(p_{i}\right)}^{k}\right) h(pi)k+1=ReLU⎝⎛ci1j∈Ni∑Wpkh(pj)k+h

最低0.47元/天 解锁文章
849

被折叠的 条评论
为什么被折叠?



