基于线性可分基因和基因对的新型基因子集选择方法
1 引言
DNA微阵列能够同时获取单个组织样本、特定条件或时间点下数千个基因的表达水平。不过,微阵列数据集往往存在噪声,且在测量大量基因的情况下样本量较小。这些数据集给样本分类算法带来了诸多挑战,因为许多基因对于当前的学习问题而言是有噪声、无关或冗余的。
基因子集选择方法近年来备受关注,它比特征提取方法更适合降维,因为特征提取得到的特征难以解释。基因子集选择问题旨在找到一个最小的基因子集,其表达值能使样本分类达到最高的准确率。目前,已有多种解决该问题的方法:
- 过滤法 :先根据单个基因区分不同类别的能力对其进行排序,然后选择排名前r的基因作为子集。这里的r是使用该子集时能产生最佳分类准确率的最小整数。许多基因排序标准基于不同原则,如冗余性和相关性。过滤法简单快速,但不一定能产生最佳的基因子集。
- 包装法 :不考虑基因的排名,直接评估基因子集。这类方法基于启发式搜索,通过分类器在所选基因子集上的性能来指导搜索。
- 结合法 :结合基因排名和包装法,但计算量较大。
近年来,一些研究者开始将基因对作为特征用于过滤法。使用基因对而非单个基因的动机在于,两个基因组合起来可能比单个基因更能有效区分类别,即使其中一个或两个基因在单基因排名函数中的排名较低。
本文提出使用线性可分的单个基因(LS - 基因)和线性可分的基因对(LS - 对)作为特征来寻找最佳基因子集。我们为LS - 基因和LS - 对提出了排名标准,以评估它们区分类别的能力,并设计了从排名靠前的LS - 基因和LS
超级会员免费看
订阅专栏 解锁全文
4810

被折叠的 条评论
为什么被折叠?



