生物信息学中分类器集成的应用
1. 引言
在过去十年中,生物医学数据量呈现出巨大的增长。例如,人类基因组以及其他一些生物的基因组测序,产生了前所未有的数量和规模的完整基因组序列。因此,为了管理和处理大量各种类型的数据,并对这些数据进行解释,在生物信息学中应用机器学习技术的动机已从一个示例转变为解决复杂问题的实际必要条件,如蛋白质折叠和蛋白质结构预测、遗传和分子网络推断、基因 - 蛋白质相互作用、微阵列数据挖掘、功能和比较基因组学等。
生物信息学中许多建模任务具有高维度的特点,从序列分析、微阵列分析到光谱分析和文献挖掘,这使得生物信息学成为从数据中学习模型的智能系统的一个有趣应用领域。机器学习关注从数据中自动获取模型,以及使用这些模型进行自动推理和预测,它在解释生物数据方面非常有用,有助于实现生物医学计算研究的主要最终目标,即理解和预测生物体的正常功能,更重要的是,了解疾病的潜在机制。
由于生物医学数据解释既涉及对复杂生物系统的建模,也涉及预测基因和蛋白质在这些系统中的作用,机器学习方法在这项任务中能提供很大帮助,目前已广泛应用于各种生物医学问题。然而,将已知的机器学习方法直接应用于生物信息学并不总是可行的。虽然一些生物信息学问题和数据集可以直接应用已有的机器学习技术,但在某些应用中,数据的新颖性可能需要对现有算法和程序进行修改,有时甚至需要设计全新的分析方法。此外,在应用机器学习解决生物信息学问题时,参数优化始终是一个关键问题。大多数用于机器学习的方法和工具,如通用分类器、聚类方法、特征变换、特征选择技术和融合规则,都需要优化大量参数,可能需要使用相当大的验证集以避免过拟合。
在设计生物信息学的多分类器和准备测试阶段时,有几个关键选择需要考虑:
1.
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



