机器学习中特征选择方法1(Feature Selection Method)
原创 孤岛 青年杂说youth 2024年04月29日 09:43 甘肃
简述及过滤法
1.概念
特征选择是指从原始数据中选择最具有代表性的特征,以提高模型的性能、减少过拟合并提高模型的解释性。在特征选择中,通常会评估每个特征对模型性能的贡献,然后选择最佳的特征子集。
2.作用
-
减少维度:通过删除不相关或冗余的特征,可以减少特征空间的维度,从而降低了模型的复杂度和训练时间。
-
改善模型性能:选择最相关的特征可以提高模型的预测性能,减少过拟合的风险。
-
提高解释性:仅使用最重要的特征可以使模型更容易解释,有助于理解模型的决策过程。
3.主要方法
-
过滤法(Filter Methods):基于统计检验或相关性评估等指标对特征进行排序,然后选择排名靠前的特征。
-
包装法(Wrapper Methods):通过尝试不同的特征子集来训练模型,并根据模型性能选择最佳的特征子集。
-
嵌入法(Embedded Methods):在模型训练的过程中,使用正则化等技术来自动选择最优的特征。
4.过滤法介绍
1)通过使用单个卡方检验检查每个预测变量是否独立于响应变量,然后使用卡方检验统计量的P值对特征进行排名。
load ionosphere%加载数据
[idx,scores] = fscchi2(X,Y);%fscchi2主函数判别
%得分中的值是p值的负对数。如果p值小于eps(0),