论文笔记：EGAT: Edge Aggregated Graph Attention Networks and Transfer Learning Improve Protein-Protein In-优快云博客

本文提出了一种名为EGAT的新方法，它利用图神经网络和边缘特征来预测蛋白质的结合位点。EGAT通过改进的边聚合图注意力层有效地利用了蛋白质结构的局部和全局信息。实验结果表明，EGAT在多个基准数据集上优于其他先进技术，并且证明了使用预训练的ProtBERT特征进行迁移学习的价值。

文章目录

一、摘要
二、方法
（一）、蛋白质图的表示
（二）、节点级特征表示
（三）、边级特征表示
（四）、 EGAT结构的主要特点
（五）、边缘聚合图关注层
（六）、在计算注意力分数时使用边缘特征
三、结果
（一）、数据集
（二）、基准数据集上的结果
（三）使用基于 ProtBERT的特性进行迁移学习的影响
四、总结

一、摘要

图神经网络(GNN)已成为结构信息编码的一种有效工具，尽管基于GNN的体系结构已被应用于配对结合位点预测，但他没有被用来预测单个蛋白质的结合位点。此外，与可能不适当编码远程相互作用的残基特异性信息的方法不同，当它们学习所有残基的单一全局特征表示时gnn有潜力有效编码包含任何特定残基的全局特征，通过学习特定残基及其近邻的合适函数。在各种基于GNN的网络结构中，图注意网络(GAT)被证明是解决蛋白质相互作用网络相关问题的有效方法，但是最初提出的GAT体系结构并没有考虑边缘的特征，无论是在聚集过程中，还是在计算注意力分数时。因此，GAT缺乏利用可能已经编码在边缘特征中的丰富结构信息的能力，与GAT不同的是，EGAT被期望在聚合和注意力分数计算阶段有效地利用编码在边缘特征中的结构信息。

二、方法

（一）、蛋白质图的表示

本文提出的EGAT模型是一种基于图神经网络的结构，我们将数据集中每个蛋白P的三维结构表示为有向k近邻图G。图G中的节点集合V (G)是蛋白质P的氨基酸残基集合。设Ni是节点(残差)i的邻域，它由k个最近的邻域组成(即|Ni| = k)， i是这个邻域的中心。每个节点i∈V (G)通过有向边连接到Ni中的每个节点。这些i的邻居是通过对所有其他节点根据它们到i的距离排序来选择的，然后取最近的k个节点，其中k是我们方法的超参数。受到蛋白质相互作用预测的成功启发。

（二）、节点级特征表示

每个节点i∈V (G)(表示i-蛋白质序列中的残基)用一个特征向量表示。EGAT将序列X = {X1, X2, X3，…， XN}，其中Xi为第i个残基的一个字母符号，N为P中残基的总数，X通过所开发的嵌入生成管道。尽管我们在实验中使用了ProtBERT，因为与其他方法相比，它在残差级别分类任务(例如:第二结构预测)，EGAT与ProtTrans[36]中可用的预先训练的语言模型无关，这意味着ProtTrans中其他适当的语言模型也可以用于我们的模型。