【论文解读】Graph‑BERT and language model‑based framework for protein–protein interaction identificatio

论文介绍:Graph-BERT 和语言模型在蛋白质-蛋白质交互 (PPI) 识别中的应用

这篇论文提出了一种利用 Graph-BERT 和语言模型的框架,用于蛋白质-蛋白质交互 (PPI) 的预测。以下是其主要内容和模型架构的详细介绍:


研究背景

  • 蛋白质是所有生物过程中不可或缺的分子,许多功能依赖于蛋白质之间的交互(如细胞信号传递、DNA 复制等)。
  • PPI 数据通常通过实验获得,但实验方法成本高且时间耗费大,且可能产生较高的假阳性和假阴性。
  • 为弥补这一不足,基于计算的 PPI 预测方法得到了广泛应用,特别是深度学习模型。
  • 现有基于图神经网络(如 GCN)的 PPI 方法可能存在过平滑和悬置动画问题。为此,论文提出了基于 Transformer 的 Graph-BERT 模型,专注于无连接子图(linkless subgraph)学习。

主要贡献

  1. 将 PPI 预测问题设计为节点分类问题,每个节点表示一个蛋白质对,边定义为共享一个蛋白质的节点对。
  2. 使用语言模型 (SeqVec) 从蛋白质序列中直接提取节点特征向量,生成 2048 维嵌入。
  3. 采用 Graph-BERT 学习节点的低维嵌入表示,避免了传统 GCN 的局限。
  4. 在多个 PPI 数据集上展示了模型的优越性能,相比现有方法取得了更高的准确率。

实验与结果

  • 数据集包括人类蛋白质 PPI 数据以及其他物种(E. coli, Drosophila, C. elegan)的数据。
  • 实验结果表明,该方法在多个数据集上的准确率均超过 99%,优于现有方法(如 GCN 和 S-VGAE)。

总结与优势

  • 创新点:引入语言模型提取蛋白质特征,并结合 Graph-BERT 处理图数据,解决了传统图神经网络的过平滑和悬置动画问题。
  • 性能优势:在多个基准数据集上取得了比现有方法更高的预测精度。

未来研究方向包括探索其他预训练语言模型,以及利用更多蛋白质信息(如基因共表达数据)增强节点特征。

模型结构

1. 数据输入与图构建

  • 输入数据:蛋白质序列和 PPI 网络。
  • 图构建
    • 图 ( G_{PPI} = (V, E) ),其中:
      • ( V ):节点集,每个节点表示蛋白质对(交互或不交互)。
      • ( E ):边集,表示两个节点共享一个蛋白质。
    • 每个节点的特征由语言模型 SeqVec 生成,形成 2048 维嵌入向量。

2. 节点特征嵌入

  • 节点的输入特征包含以下四部分:

    1. 原始特征嵌入
      e x = Embed ( x ) ∈ R d h × 1 e_x = \text{Embed}(x) \in \mathbb{R}^{d_h \times 1} ex=Embed(x)Rdh×1
      将节点的输入特征 ( x ) 映射到共享特征空间。
    2. Weisfeiler-Lehman (WL) 绝对角色嵌入
      e r = Position-Embed ( WL ( v ) ) ∈ R d h × 1 e_r = \text{Position-Embed}(\text{WL}(v)) \in \mathbb{R}^{d_h \times 1} er=Position-Embed(WL(
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值