使用蛋白质和mRNA序列信息预测蛋白质亚线粒体定位
对亚线粒体蛋白质M254的预测
数据集
M254(来自M317)
共包含317条亚线粒体蛋白质且序列间的相似性低于40%,分别位于基质、内膜、外膜三个位置。从GeneBank中找出每条蛋白质对应的成熟的mRNA,即编码蛋白质的mRNA。由于有的蛋白质在数据库中没有实验证实的mRNA,并且删除亚细胞位置从单定位变成多定位的、在Swiss-Prot数据库中已经删除的蛋白质,获得254条与mRNA对应的蛋白质,即M254。

特征选择
-
mRNA序列的H联体频数(3-mer)
-
分段氨基酸组分(AAC)
将序列分段整理为相同长度的序列,采用SVM算法jackknife检验,得出序列分成的段数与整体的准确率之间的关系,取最佳结果。然后统计氨基酸组分信息。
-
PSSM
进化信息中的λ是相关长度,从0到7变化时,总体预测成功率从86.61%到90.16%之间变化,取最高:λ=1时
对PSSM矩阵的每行用标准差进行归一化,再用伪氨基酸组分算法得出伪进化信息PsePSSM:

-
同源GO术语
考虑到目标蛋白质序列的GO信息不太

该博客探讨如何使用蛋白质和mRNA序列信息来预测蛋白质亚线粒体定位,重点介绍了M254数据集、特征选择(如3-mer、AAC、PSSM、GO信息)以及支持向量机作为预测方法。通过特征工程和优化,预测准确率得到了显著提升。
最低0.47元/天 解锁文章
1504

被折叠的 条评论
为什么被折叠?



