蛋白质亚细胞定位预测器的特性与分析
在蛋白质亚细胞定位研究中,有多种预测器被提出用于解决单标签和多标签的蛋白质亚细胞定位问题。下面将详细介绍这些预测器的特性、优势以及存在的问题。
1. GOA数据库中的噪声数据
GOA数据库由世界各地的生物研究团体构建,这就可能导致同一蛋白质被不同的研究组用不同甚至矛盾的GO术语进行注释,从而产生噪声数据和异常值。这些噪声数据和异常值可能会对基于机器学习的方法的性能产生负面影响。不过,我们对所提出的预测器仍持乐观态度,原因如下:
- 数据库质量保障 :GOA数据库有一些准则来确保数据的高质量。GO注释分为电子注释、文献注释和基于序列的注释,每个注释条目都会用一个证据代码来表示其来源。例如,“IEA”表示该GO注释是通过电子(计算)手段推断的,“EXP”表示是从生物实验中推断的。虽然我们在方法中未使用这些信息,但它有助于用户区分不同类型的注释。
- 词频信息的利用 :我们使用词频信息来强调那些被不同研究组确认的注释。一个GO术语用于注释特定蛋白质的频率越高,就意味着该注释被不同研究组确认的次数越多,也就越可信。通过在特征向量中使用词频,我们可以增强高频GO术语的影响,同时间接抑制低频GO术语的影响。
- 噪声数据分布 :噪声数据和异常值可能同时存在于训练和测试数据集中,这种情况下它们的负面影响可能会降低。我们使用同源转移方法获取训练和测试蛋白质的特征信息,因此如果GOA数据库中有噪声数据和异常值,训练和测试蛋白质都可能包含这些数据。我们推测,在这种情况下,噪声数据和异常值可能有助于最终决策,甚至可能提高预测性能。
超级会员免费看
订阅专栏 解锁全文
39

被折叠的 条评论
为什么被折叠?



