论文笔记:Protein-protein interaction site prediction through combining local and global features

一、论文基本情况

  • 发表期刊:Bioinformatics(最新的IF=5.61)
  • 作者及单位:中南大学李敏团队
  • 服务器地址:http://bioinformatics.csu.edu.cn/PPISP/
  • 代码及数据地址:https://github.com/CSUBioGroup/DeepPPISP
  • 补充材料来源

二、前言

蛋白质-蛋白质相互作用(PPI)在信号转导、运输和新陈代谢起着非常关键的作用,作者引出了一种局部上下文特征和全局序列特征相结合的蛋白质作用位点预测的方法(DeepPPISP)。采用滑动窗口来捕捉目标氨基酸的邻居特征,采用卷积神经网络从整个蛋白质序列中提取特征。

三、数据

(一)训练集和测试集

将三个基准的数据集:Dset_186、Dset_164、 Dset_72这三个基准数据集进行混合,一共就有422条蛋白质序列,但是有两条蛋白质序列没有蛋白质的二级结构的定义(DSSP)文件然,所以删除了两条蛋白质序列,剩下420条蛋白质序列,然后后取83.3%蛋白质序列作为训练集(73188)、16.7%作为测试集(11719),总共的残差数量为84979,即350个蛋白质序列作为训练集( 其中50个用来进行独立验证),70个蛋白质作为测试集。.这三个基准数据集包括了作用位点和非作用位点(具体参数见表一),如果一个氨基酸的绝对溶剂可及性( absolute solvent accessibility)小于1 A^2,则该氨基酸被定义为相互作用位点,否则定义为非作用位点。

表一:三个数据集残差作用|非作用的数量
数据集 Dset_72 Dset_164 Dset_186 总数量
作用位点残差数量 1923 6096 5517 13536
非作用位点残差数量 16217 27585 30702 74504
各数据集总数量 18140 33681 36219 88040

在这里插入图片描述

图一:三个数据集蛋白质序列的长度范围/center>

(二)特征

1、位置特异性矩阵(PSSM)
PSSM是通过运行PSI-BLAST算法在NCBI的非冗余(NR)序列数据库中搜索生成的,有三个迭代,e值阈值为0.001。每个氨基酸被编码为一个含有20个元素的载体。PSSM或特定于位置的评分矩阵是蛋白质BLAST搜索中使用的一种评分矩阵,其中蛋白质多序列比对中每个位置的氨基酸取代分数分别给出。因此,比对中位置A处的Tyr-Trp取代与位置B中相同的取代可能获得非常不同的分数,PSSM分数通常显示为正整数或负整数。正值表示给定的氨基酸替换比对发生的频率比偶然预期的要高,而负值表示替换发生的频率低于预期的发生率。通过输入蛋白质序列的FASTA文件查看PSSM

Dset_72的一个PSSM[-2, -3, -3, -3, -4, -3, -2, -4, -4, -4, -4, -2, -4, -5, 8, -2, -2, -5, -4, -4]

2、二级构造( Secondary structure)
蛋白质的二级结构是指肽链主链的空间走向(折叠和盘绕方式),是有规则重复的构象。最常见的二级结构单元就是α-螺旋和β-折叠,它们的各种组合决定了蛋白质的主体结构。使用一个9维单向矢量对它们进行编码,也就是说,只有一个元素为1,其他元素为0。前8个维度表示每个氨基酸的状态,最后一个维度不表示二级结构状态的信息。

Dset_72的第一个序列的前三个残基[1, 0, 0, 0, 0, 0, 0, 0, 0], [1, 0, 0, 0, 0, 0, 0
评论 6
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值