蛋白质亚细胞定位预测方法综述
1. 蛋白质亚细胞定位预测的背景与需求
蛋白质亚细胞定位预测旨在确定蛋白质将被运输到的细胞区室。传统上,这一问题通过耗时且费力的实验室测试来解决。然而,在后基因组时代,新发现的蛋白质序列数量迅速增长。以UniProt数据库为例,从2004年到2014年,经过审核的蛋白质序列数量从137,916增长到542,503,增长了约4倍;而未审核的蛋白质序列数量从895,002增长到52,707,211,增长了近59倍,两者的比例从1:6扩大到1:97。这表明仅依靠湿实验来确定如此大量蛋白质序列的亚细胞定位几乎是“不可能完成的任务”。
因此,需要计算方法来辅助生物学家处理大规模蛋白质组数据,以确定蛋白质的亚细胞定位。随着机器学习的快速发展,以及越来越多通过实验确定定位的蛋白质,利用计算方法准确预测蛋白质亚细胞定位变得可行且有前景。
蛋白质具有四种不同的层次结构:一级结构(氨基酸序列)、二级结构(如α - 螺旋、β - 折叠和转角等规则重复的局部结构)、三级结构(单个蛋白质分子的整体形状)和四级结构(由几个蛋白质分子形成的结构)。由于一级结构(氨基酸序列)通过高通量测序技术更容易获得,蛋白质亚细胞定位预测通常指的是根据蛋白质的氨基酸序列确定其在细胞中的位置。
2. 序列基方法
序列基方法仅使用查询蛋白质的氨基酸序列作为输入。蛋白质由20种不同氨基酸组成的线性聚合物构成,这些氨基酸通常用20个字母表示,具有不同的生化特性,如疏水性、亲水性、侧链质量等。具体信息如下表所示:
| No. | 氨基酸 | 缩写 | 疏水性 | 亲水性 | 质量 |
| — | — | — | — | — | — |
超级会员免费看
订阅专栏 解锁全文
81

被折叠的 条评论
为什么被折叠?



