基于随机子空间集成的微阵列癌症分类新基因选择方法
1. 引言
如今,高通量技术能够产生大量有价值的信息,可用于各个诊断领域的识别和分类。然而,对这些信息的分析给机器学习带来了挑战,仍需要新的鲁棒模型来有效处理这一任务。
基于基因表达数据的癌症诊断是微阵列分析工具的一个重要新兴医学应用领域。临床癌症分类的诊断能力有限,而利用基因表达数据对不同肿瘤类型进行分类,能够为癌症诊断和药物发现等重要任务提供有价值的知识。
对微阵列样本(如癌症细胞与正常细胞)根据其基因表达谱进行分类是一项重要且具有挑战性的任务。该问题的复杂性源于基因表达谱中特征数量众多,而微阵列分析中可用的样本数量却非常少。此外,数据集中存在的噪声(生物或技术噪声)会影响分类器的准确性,大量无关基因的存在也增加了分类任务的难度,影响了相关特征的判别能力。
从微阵列数据中提取重要知识需要开发能够有效处理该任务的鲁棒方法。许多研究认为,基因选择是分类问题的重要预处理步骤,它可以降低数据维度、去除无关或噪声基因、提高学习准确性,还能降低分类器的计算成本,使诊断结果更易于解释。
多分类器系统使用具有互补行为的基分类器,是复杂且难以管理的单一分类器的有效替代方案。在众多集成方法中,随机子空间集成(RSE)是一种高效的模型,尤其在高维分类问题中取得了良好的效果。RSE使用多个基分类器,每个基分类器仅考虑原始特征空间的一个随机子集。
本文介绍了一种名为多样化准确特征选择(DAFS)的方法,用于基因表达癌症诊断中的特征选择。DAFS的主要思想是将RSE方法应用于特征选择,通过有效探索准确性和多样性信息来实现。具体而言,DAFS方法利用专门针对随机子空间的基分类器的个体和集成准确性,
超级会员免费看
订阅专栏 解锁全文
877

被折叠的 条评论
为什么被折叠?



