蛋白质亚细胞定位预测的随机投影方法
在蛋白质亚细胞定位预测领域,传统方法存在诸多挑战,如高维特征带来的过拟合问题以及知识数据库庞大冗余等。为解决这些问题,科学家们提出了多种预测方法,下面将详细介绍相关内容。
1. 基于GO信息的预测器
有两种预测器SS - Loc和HybridGO - Loc,它们都提取更深层次的GO信息,即GO语义相似性,用于多位置蛋白质亚细胞定位。
- SS - Loc :将GO术语的术语间关系扩展为GO术语组的组间关系,以此表示蛋白质之间的相似性,然后通过多标签SVM分类器对相似性向量进行预测。
- HybridGO - Loc :结合GO出现特征和GO语义相似性特征,生成混合特征向量。比较了几种语义相似性度量,并尝试了两种不同的决策方案。HybridGO - Loc的优越性能表明这两种特征是互补的。
2. 随机投影概述
在机器学习中,高维模式常被映射到低维子空间,以避免维度灾难。随机投影(RP)在过去三十年中成为一种强大的降维方法。
- RP的优势 :通过RP,高维特征向量被转换为低维向量,保留了原始几何结构,减少了可能降低分类性能的冗余、无关或有害信息。它计算效率高且足够准确,尤其适用于高维稀疏输入数据。
- RP的应用领域 :广泛应用于文本数据预处理、音频文档索引、图像处理和高维高斯混合模型学习等领域。最近,动态随机投影在生物特征模板保护和隐私保护验证中也取得了成功应用。
3. 传统方法的问题
超级会员免费看
订阅专栏 解锁全文
27

被折叠的 条评论
为什么被折叠?



