深入探究受体剪接位点预测:迭代特征选择方法
1. 引言
在过去几十年里,特征选择技术愈发重要,能帮助研究人员处理图像、文本分类和生物信息学等领域出现的海量数据。特征选择旨在选取具有“最佳”分类性能的特征子集,与投影和压缩等降维技术不同,它不改变原始输入特征,只是进行子集选择。
数据降维有诸多优势,如用有限特征子集获得良好甚至更优的分类性能、使预测器更快且更具成本效益,以及让人更好地洞察数据描述的过程。
在生物信息学的许多分类问题中,所建模的生物过程尚未完全明晰。因此,分类模型常使用大量特征,期望涵盖真正重要的特征,但这也导致许多特征与分类任务无关,成为噪声,降低分类器性能,阻碍人类专家的解读,这也凸显了使用特征选择技术进行知识发现的必要性。
生物信息学中的一个重要机器学习任务是DNA序列注释,目标是根据基因组序列和示例基因结构预测基因组上的所有基因。基因预测的一个重要子任务是正确识别编码区(外显子)和非编码区(内含子)之间的边界,即剪接位点,包括供体剪接位点(外显子到内含子的过渡)和受体剪接位点(内含子到外显子的过渡)。在高等生物中,大多数供体剪接位点的内含子部分有GT子序列,受体剪接位点的内含子部分有AG子序列。因此,剪接位点预测可表述为二分类任务。本文聚焦于拟南芥中受体剪接位点的预测。
2. 方法
一般来说,没有绝对的最佳分类算法或特征选择方法,因此需要对分类模型和特征选择技术进行比较评估,以找出最适合数据集的组合。
2.1 分类算法
实验选择了两种广泛用于机器学习研究的分类器:
- 贝叶斯分类器:选用朴素贝叶斯方法(NBM),因其能处理高维特征空间且具有鲁棒
超级会员免费看
订阅专栏 解锁全文
5869

被折叠的 条评论
为什么被折叠?



