论文解读:Prediction of Protein–Protein Interaction Sites Using Convolutional Neural Network

本文提出了一种使用卷积神经网络预测蛋白质-蛋白质相互作用位点的方法,结合残基结合倾向以提高预测准确性。通过对氨基酸编码、序列和结构特征的分析,构建深度学习模型并在平衡正负样本的数据集上进行训练。结果显示,考虑残基结合倾向能有效降低假阳性率,提高模型性能。与随机抽样数据集和现有方法的比较进一步证实了这种方法的优势。

论文简介

论文代码: https://github.com/Xiaoya-Deng/PPI-sites-prediction
论文原文:https://www.mdpi.com/1422-0067/21/2/467
补充材料: http://www.mdpi.com/1422-0067/21/2/467/s1
作者单位:重庆邮电大学
期刊影响因子:4.556(中科院二区)

摘要

提出一种卷积神经网络用于PPI站点预测,并利用残基结合倾向来改善阳性样本。该方法在改进后的数据集上AUC= 0.912。它在具有高结合倾向的样本上比在随机选择的样本上得到更好的结果。这表明在由残基原子之间的距离确定的阳性样品中有相当多的假阳性PPI位点。对于训练集正负样本不平衡的问题采用EasyEnsemble algorithm构建正负样本数量相等的训练集。
在这里插入图片描述
最终: 直接取T个基分类的结果(0,1)进行投票,而是把n个基分类器的预测概率进行相加,最后再通过sign函数来决定分类。

介绍

常用的PPI站点预测方法根据其所依据的信息可分为三类:

  1. 序列的方法
  2. 基于结构的方法
  3. 将序列方法和结构方法进行结合

1 相互作用残基对的定义

两个蛋白质的两个残基之间的欧几里德距离小于等于6 Å(埃格斯特朗,1 Å = 0.1奈米),则认为这两个残基之间有相互作用。根据这个定义,得到12138个阳性样本(相互作用的残基对)和5,522,852个阴性样本(非相互作用的残基对),每个二聚体平均有88个阳性样本和40,006个阴性样本,采用e EasyEnsemble algorithm的方法来平衡正负样本。

1.1 残基对的结合倾向鉴定

  • 显性相互作用残基(DIRs)为真阳性样本(TP)
  • 被动相互作用残基(PIRs)为假阳性样本(FP)
    在这里插入图片描述

2. 数据集

使用基准数据集 DBD 5.0和 DBD 4.0, DBD 4.0中有116个二聚体与 DBD 5.0相同,进行以下两个操作处理:

  • 一个二聚体的两条相互作用蛋白链来自蛋白质结构分类(SCOP)定义的不同家族,序列同一性小于30%,序列统一性大于30%的去除
  • 在未绑定状态的1ZLI序列中有一些删除,因此它被排除在数据集之外

在这里插入图片描述

  • 174个二聚体用于残基的结合倾向和分布趋势的统计
  • 116个二聚体用于模型比较
  • 138个二聚体用于验证

在这里插入图片描述

  • 相互作用残基相对丰度(RAIR):每个残基对的结合倾向
  • 残基丰度(AR):表示DBD 4.0中174个蛋白复合物的表面残基总数中每个残基(共20个)的频率
  • 相互作用残基丰度(AIR):表示每个残基与20个残基相互作用的频率(共400对)
    在这里插入图片描述
    在这里插入图片描述

公式参数理解:

  • N: 174个蛋白质复合物的所有表面残基的总数
  • N i N_i N
### Rerank Model in Information Retrieval or Recommendation Systems In the context of information retrieval and recommendation systems, reranking models play a crucial role by refining initial ranking results to better meet user needs. The primary goal is not only to improve relevance but also diversity and novelty of recommendations. #### Principles Behind Reranking Models Reranking typically occurs after an initial set of items has been retrieved based on some criteria such as popularity or similarity measures. A more sophisticated model then reorders these candidates considering additional factors like personalization through collaborative filtering techniques[^1]. This approach ensures that while popular choices remain visible, less obvious yet potentially highly relevant options are given prominence too. For web-scale applications where computational efficiency matters greatly, graph convolutional neural networks (GCNs) have shown promise due to their ability to capture complex relationships between entities within large graphs efficiently[^2]. #### Implementation Using Multi-View DNNs A notable implementation involves using multi-view deep neural network architectures which integrate diverse sources of data about users across different domains into unified embeddings. These enhanced representations allow for richer characterizations of individual preferences leading ultimately to improved prediction accuracy especially under conditions with sparse interaction history known commonly as 'cold start' problems[^3]. ```python import tensorflow as tf from tensorflow.keras import layers def create_multi_view_dnn(input_shapes): inputs = [] outputs = [] for shape in input_shapes: inp = layers.Input(shape=shape) outp = layers.Dense(64, activation='relu')(inp) inputs.append(inp) outputs.append(outp) concatenated = layers.Concatenate()(outputs) final_output = layers.Dense(1)(concatenated) model = tf.keras.Model(inputs=inputs, outputs=final_output) return model ``` This code snippet demonstrates how one might construct a simple version of a multi-view DNN suitable for integrating multiple feature sets corresponding to various aspects of user behavior patterns observed over time.
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值