基于核的数据融合及其在酵母蛋白质功能预测中的应用
1. 引言
计算生物学的许多研究都涉及从数据集中进行合理的统计推断。例如,可根据未注释蛋白质序列与已知功能蛋白质序列的相似性来预测其功能。此外,若两种蛋白质在其他生物体中以融合形式存在、在多个物种中共存、对应的mRNA具有相似的表达模式或相互作用,也可推断它们具有相关功能。
将不同数据源的信息进行比较和融合,能够更深入地展现蛋白质之间的关系,并更详细地描述每个蛋白质。这种融合表示可以被机器学习算法利用,有助于形成基因组不同组成部分之间关系的完整图景。
本文提出了一种计算和统计框架,用于整合同一组基因、蛋白质或其他实体的异质描述。该方法依赖于基于核的统计学习方法,这些方法已在生物信息学中被证明非常有用。核函数用于定义基因、蛋白质等之间的相似性,能隐式地捕捉潜在生物机制的各个方面。每个核函数从给定数据集中提取特定类型的信息,为数据提供部分描述。我们的目标是找到一个能最好地代表给定统计学习任务中所有可用信息的核。通过半定规划(SDP)这一凸优化方法,我们解决了将多个部分描述进行组合的数学问题,该方法在统计上合理,计算效率高且稳健。
为了验证这些方法的可行性,我们以预测酵母蛋白质的功能分类问题为例。采用五个公开可用的数据集,学习识别酵母蛋白质的13个广泛功能类别。实验表明,结合氨基酸序列、蛋白质复合物数据、基因表达数据和已知的蛋白质 - 蛋白质相互作用的知识,相比仅基于单一类型数据训练的方法以及先前基于马尔可夫随机场模型的方法,分类性能有显著提高。
2. 相关工作
在自动整合基因组数据集以获取更精细和高级信息方面,已有大量工作。以往的研究方法可分为以下三类:
1.
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



