32、基于核的数据融合及其在酵母蛋白质功能预测中的应用

基于核的数据融合及其在酵母蛋白质功能预测中的应用

1. 引言

计算生物学的许多研究都涉及从数据集中进行合理的统计推断。例如,可根据未注释蛋白质序列与已知功能蛋白质序列的相似性来预测其功能。此外,若两种蛋白质在其他生物体中以融合形式存在、在多个物种中共存、对应的mRNA具有相似的表达模式或相互作用,也可推断它们具有相关功能。

将不同数据源的信息进行比较和融合,能够更深入地展现蛋白质之间的关系,并更详细地描述每个蛋白质。这种融合表示可以被机器学习算法利用,有助于形成基因组不同组成部分之间关系的完整图景。

本文提出了一种计算和统计框架,用于整合同一组基因、蛋白质或其他实体的异质描述。该方法依赖于基于核的统计学习方法,这些方法已在生物信息学中被证明非常有用。核函数用于定义基因、蛋白质等之间的相似性,能隐式地捕捉潜在生物机制的各个方面。每个核函数从给定数据集中提取特定类型的信息,为数据提供部分描述。我们的目标是找到一个能最好地代表给定统计学习任务中所有可用信息的核。通过半定规划(SDP)这一凸优化方法,我们解决了将多个部分描述进行组合的数学问题,该方法在统计上合理,计算效率高且稳健。

为了验证这些方法的可行性,我们以预测酵母蛋白质的功能分类问题为例。采用五个公开可用的数据集,学习识别酵母蛋白质的13个广泛功能类别。实验表明,结合氨基酸序列、蛋白质复合物数据、基因表达数据和已知的蛋白质 - 蛋白质相互作用的知识,相比仅基于单一类型数据训练的方法以及先前基于马尔可夫随机场模型的方法,分类性能有显著提高。

2. 相关工作

在自动整合基因组数据集以获取更精细和高级信息方面,已有大量工作。以往的研究方法可分为以下三类:
1.

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值