目录
论文简介
论文代码: https://github.com/Xiaoya-Deng/PPI-sites-prediction
论文原文:https://www.mdpi.com/1422-0067/21/2/467
补充材料: http://www.mdpi.com/1422-0067/21/2/467/s1
作者单位:重庆邮电大学
期刊影响因子:4.556(中科院二区)
摘要
提出一种卷积神经网络用于PPI站点预测,并利用残基结合倾向来改善阳性样本。该方法在改进后的数据集上AUC= 0.912。它在具有高结合倾向的样本上比在随机选择的样本上得到更好的结果。这表明在由残基原子之间的距离确定的阳性样品中有相当多的假阳性PPI位点。对于训练集正负样本不平衡的问题采用EasyEnsemble algorithm构建正负样本数量相等的训练集。

最终: 直接取T个基分类的结果(0,1)进行投票,而是把n个基分类器的预测概率进行相加,最后再通过sign函数来决定分类。
介绍
常用的PPI站点预测方法根据其所依据的信息可分为三类:
- 序列的方法
- 基于结构的方法
- 将序列方法和结构方法进行结合
1 相互作用残基对的定义
两个蛋白质的两个残基之间的欧几里德距离小于等于6 Å(埃格斯特朗,1 Å = 0.1奈米),则认为这两个残基之间有相互作用。根据这个定义,得到12138个阳性样本(相互作用的残基对)和5,522,852个阴性样本(非相互作用的残基对),每个二聚体平均有88个阳性样本和40,006个阴性样本,采用e EasyEnsemble algorithm的方法来平衡正负样本。
1.1 残基对的结合倾向鉴定
- 显性相互作用残基(DIRs)为真阳性样本(TP)
- 被动相互作用残基(PIRs)为假阳性样本(FP)

2. 数据集
使用基准数据集 DBD 5.0和 DBD 4.0, DBD 4.0中有116个二聚体与 DBD 5.0相同,进行以下两个操作处理:
- 一个二聚体的两条相互作用蛋白链来自蛋白质结构分类(SCOP)定义的不同家族,序列同一性小于30%,序列统一性大于30%的去除
- 在未绑定状态的1ZLI序列中有一些删除,因此它被排除在数据集之外

- 174个二聚体用于残基的结合倾向和分布趋势的统计
- 116个二聚体用于模型比较
- 138个二聚体用于验证

- 相互作用残基相对丰度(RAIR):每个残基对的结合倾向
- 残基丰度(AR):表示DBD 4.0中174个蛋白复合物的表面残基总数中每个残基(共20个)的频率
- 相互作用残基丰度(AIR):表示每个残基与20个残基相互作用的频率(共400对)


公式参数理解:
- N: 174个蛋白质复合物的所有表面残基的总数
- N i N_i N

本文提出了一种使用卷积神经网络预测蛋白质-蛋白质相互作用位点的方法,结合残基结合倾向以提高预测准确性。通过对氨基酸编码、序列和结构特征的分析,构建深度学习模型并在平衡正负样本的数据集上进行训练。结果显示,考虑残基结合倾向能有效降低假阳性率,提高模型性能。与随机抽样数据集和现有方法的比较进一步证实了这种方法的优势。
最低0.47元/天 解锁文章

被折叠的 条评论
为什么被折叠?



