文章目录
一、论文基本情况
- 发表期刊:Bioinformatics(最新的IF=5.61)
- 作者及单位:中南大学李敏团队
- 服务器地址:http://bioinformatics.csu.edu.cn/PPISP/
- 代码及数据地址:https://github.com/CSUBioGroup/DeepPPISP
- 补充材料来源
二、前言
蛋白质-蛋白质相互作用(PPI)在信号转导、运输和新陈代谢起着非常关键的作用,作者引出了一种局部上下文特征和全局序列特征相结合的蛋白质作用位点预测的方法(DeepPPISP)。采用滑动窗口来捕捉目标氨基酸的邻居特征,采用卷积神经网络从整个蛋白质序列中提取特征。
三、数据
(一)训练集和测试集
将三个基准的数据集:Dset_186、Dset_164、 Dset_72这三个基准数据集进行混合,一共就有422条蛋白质序列,但是有两条蛋白质序列没有蛋白质的二级结构的定义(DSSP)文件然,所以删除了两条蛋白质序列,剩下420条蛋白质序列,然后后取83.3%蛋白质序列作为训练集(73188)、16.7%作为测试集(11719),总共的残差数量为84979,即350个蛋白质序列作为训练集( 其中50个用来进行独立验证),70个蛋白质作为测试集。.这三个基准数据集包括了作用位点和非作用位点(具体参数见表一),如果一个氨基酸的绝对溶剂可及性( absolute solvent accessibility)小于1 A^2,则该氨基酸被定义为相互作用位点,否则定义为非作用位点。
| 数据集 | Dset_72 | Dset_164 | Dset_186 | 总数量 |
|---|---|---|---|---|
| 作用位点残差数量 | 1923 | 6096 | 5517 | 13536 |
| 非作用位点残差数量 | 16217 | 27585 | 30702 | 74504 |
| 各数据集总数量 | 18140 | 33681 | 36219 | 88040 |

(二)特征
1、位置特异性矩阵(PSSM)
PSSM是通过运行PSI-BLAST算法在NCBI的非冗余(NR)序列数据库中搜索生成的,有三个迭代,e值阈值为0.001。每个氨基酸被编码为一个含有20个元素的载体。PSSM或特定于位置的评分矩阵是蛋白质BLAST搜索中使用的一种评分矩阵,其中蛋白质多序列比对中每个位置的氨基酸取代分数分别给出。因此,比对中位置A处的Tyr-Trp取代与位置B中相同的取代可能获得非常不同的分数,PSSM分数通常显示为正整数或负整数。正值表示给定的氨基酸替换比对发生的频率比偶然预期的要高,而负值表示替换发生的频率低于预期的发生率。通过输入蛋白质序列的FASTA文件查看PSSM。
Dset_72的一个PSSM[-2, -3, -3, -3, -4, -3, -2, -4, -4, -4, -4, -2, -4, -5, 8, -2, -2, -5, -4, -4]
2、二级构造( Secondary structure)
蛋白质的二级结构是指肽链主链的空间走向(折叠和盘绕方式),是有规则重复的构象。最常见的二级结构单元就是α-螺旋和β-折叠,它们的各种组合决定了蛋白质的主体结构。使用一个9维单向矢量对它们进行编码,也就是说,只有一个元素为1,其他元素为0。前8个维度表示每个氨基酸的状态,最后一个维度不表示二级结构状态的信息。
Dset_72的第一个序列的前三个残基[1, 0, 0, 0, 0, 0, 0, 0, 0], [1, 0, 0, 0, 0, 0, 0

最低0.47元/天 解锁文章
1966





