蛋白质亚细胞定位预测器的特性与应用
1. 预测器特性
- GO向量的稀疏性 :以植物数据集为例,有978个蛋白质分布在12个亚细胞位置。特征提取后,GO向量维度为1541。从图10.1的直方图可以看出,GO向量中非零元素的数量相对其维度而言较少,具有稀疏性。在这978个蛋白质中,大部分在1541维向量中只有9个非零元素,最大非零元素数量也仅为45。这种稀疏性表明方程(7.1)中的GO向量非常适合使用随机投影(RP)进行降维。
- 集成随机投影提升性能 :由于方程(7.1)中的R是随机矩阵,每次应用RP时方程(7.3)的得分都会不同。单一RP的性能差异较大,不利于最终预测。通过融合多次RP的得分得到集成分类器(方程7.5),当RP应用次数足够多且投影维度不低于一定值时,RP - SVM的性能可以超过mGOASVM。这显示了集成RP对于提升RP - SVM最终性能的重要性,同时也表明在RP应用次数和投影维度之间存在权衡关系。
2. 多标签预测器比较
为了比较提出的多标签预测器与现有先进预测器的优缺点,从五个方面进行总结:
| 预测器 | 词频使用 | 连续搜索 | 分类器优化 | 深度特征利用 | 降维处理 |
| ---- | ---- | ---- | ---- | ---- | ---- |
| Virus - mPLoc | × | × | × | × | × |
| iLoc - Virus | × | × | × | × | × |
| Plant - mPLoc | × | × | × | × |
超级会员免费看
订阅专栏 解锁全文
47

被折叠的 条评论
为什么被折叠?



