【论文解读】Graph‑BERT and language model‑based framework for protein–protein interaction identificatio

原创

已于 2024-12-14 19:41:37 修改

· 1k 阅读

·

31

·

版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#bert #人工智能 #深度学习

于 2024-12-14 15:16:28 首次发布

论文介绍：Graph-BERT 和语言模型在蛋白质-蛋白质交互 (PPI) 识别中的应用

这篇论文提出了一种利用 Graph-BERT 和语言模型的框架，用于蛋白质-蛋白质交互 (PPI) 的预测。以下是其主要内容和模型架构的详细介绍：

研究背景

蛋白质是所有生物过程中不可或缺的分子，许多功能依赖于蛋白质之间的交互（如细胞信号传递、DNA 复制等）。
PPI 数据通常通过实验获得，但实验方法成本高且时间耗费大，且可能产生较高的假阳性和假阴性。
为弥补这一不足，基于计算的 PPI 预测方法得到了广泛应用，特别是深度学习模型。
现有基于图神经网络（如 GCN）的 PPI 方法可能存在过平滑和悬置动画问题。为此，论文提出了基于 Transformer 的 Graph-BERT 模型，专注于无连接子图（linkless subgraph）学习。

主要贡献

将 PPI 预测问题设计为节点分类问题，每个节点表示一个蛋白质对，边定义为共享一个蛋白质的节点对。
使用语言模型 (SeqVec) 从蛋白质序列中直接提取节点特征向量，生成 2048 维嵌入。
采用 Graph-BERT 学习节点的低维嵌入表示，避免了传统 GCN 的局限。
在多个 PPI 数据集上展示了模型的优越性能，相比现有方法取得了更高的准确率。

实验与结果

数据集包括人类蛋白质 PPI 数据以及其他物种（E. coli, Drosophila, C. elegan）的数据。
实验结果表明，该方法在多个数据集上的准确率均超过 99%，优于现有方法（如 GCN 和 S-VGAE）。

总结与优势

创新点：引入语言模型提取蛋白质特征，并结合 Graph-BERT 处理图数据，解决了传统图神经网络的过平滑和悬置动画问题。
性能优势：在多个基准数据集上取得了比现有方法更高的预测精度。

未来研究方向包括探索其他预训练语言模型，以及利用更多蛋白质信息（如基因共表达数据）增强节点特征。

模型结构

1. 数据输入与图构建

输入数据：蛋白质序列和 PPI 网络。
图构建：
- 图 ( G_{PPI} = (V, E) )，其中：
  - ( V )：节点集，每个节点表示蛋白质对（交互或不交互）。
  - ( E )：边集，表示两个节点共享一个蛋白质。
- 每个节点的特征由语言模型 SeqVec 生成，形成 2048 维嵌入向量。

2. 节点特征嵌入

节点的输入特征包含以下四部分：
1. 原始特征嵌入：
  $e_x = \text{Embed}(x) \in \mathbb{R}^{d_h \times 1}$
  将节点的输入特征 ( x ) 映射到共享特征空间。
2. Weisfeiler-Lehman (WL) 绝对角色嵌入：
  $e_r = \text{Position-Embed}(\text{WL}(v)) \in \mathbb{R}^{d_h \times 1}$

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。