基于遗传算法的混合特征选择方法:RA - GA算法解析
1. 引言
在特征选择领域,如何高效地从众多特征中挑选出最具代表性和相关性的特征子集,是提高机器学习模型性能的关键。本文介绍一种结合了基于排序聚合的过滤技术和基于遗传算法的包装器方法的RA - GA算法,以解决特征选择问题。
2. 相关工作
- 过滤方法 :通过特定的排序标准对特征进行评估和排序,过滤掉无关特征。常见的排序标准包括皮尔逊相关系数、信息增益、Relief、卡方检验、Fisher分数等。不同排序标准会产生不同的排序结果,排序聚合方法则将这些结果合并成一个更优的排序。例如,Borda计数法通过计算所有排名者的位置分数之和来确定最终排名。
- 包装器方法 :利用搜索策略构建特征子集,以优化特定学习模型的性能。常用的元启发式搜索算法包括遗传算法(GA)、粒子群优化(PSO)等。GA在特征选择中应用广泛,因为它能在探索(通过交叉)和利用(通过变异)之间取得较好的平衡。为了克服随机变异可能导致的利用能力不足问题,近期研究将GA与局部搜索算子相结合。
3. 提出的方法
3.1 基于过滤的排序聚合
本文采用了四种过滤标准:
- 卡方检验(CS) :使用卡方统计量评估每个特征与分类属性的独立性程度。
- Relief(REF) :为每个特征分配一个分数,表示其区分相邻实例的能力。
- Fisher分数(FS)
超级会员免费看
订阅专栏 解锁全文
3483

被折叠的 条评论
为什么被折叠?



