ML—常见的特征选择方法

在统计学习里,特征选择是关键步骤。常用特征选择方案分基于统计和基于模型两类。基于统计的有F值、信息增益等,可直接选特征;基于模型的需根据准确率等选删特征。还介绍了各方案适用范围及特征选择步骤。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

华电北风吹
天津大学认知计算与应用重点实验室
日期:2015/11/20

在统计分析中,由于事先并不知道什么特征与这个模式相关,而特征对能否正确分类又起到至关重要的作用,因此特征选择是统计学习中必不可少的一步。目前常用的特征选择方案总的来说可以分为基于统计的和基于模型的。基于统计的比如F值,信息增益等,可以对各个特征直接进行选择,不需要建模看模型好坏。基于模型的需要根据模型准确率等因素来逐步选择或者删除特征。

一、F值(方差分析)
适用范围:特征取值连续,有监督,分类和回归
F值能够作为特征选择的思路是:对于单个特征来说假设这个特征与类别标签是无关的,因此这个特征在各个类别下均值应该是相同的。在统计学上可以根据样本个数和样本类别个数构建F统计量,由对应的p值来决定是否拒绝这个假设。
在使用F值做特征选择的时候有两种特征选择方案:一是设定显著性水平p值,将特征对应p值小于设定的阀值p的特征作为有效特征;另一种是设定需要选择的特征个数N,根据F值排序选择F值最大的N个特征作为有效特征。

二、信息增益和基尼系数
使用范围:特征取值离散,有监督,分类和回归
熵表示了数据分布的不均衡程度。熵作为特征选择的思路是:对于单个特征,如果特征的不同取值里面,类别标签的纯度比较高的话,如果根据经验预测以后的话,这样预测比较可靠。

三、相关系数
使用范围:有监督,分类和回归
根据各个特征与导师信号的相关系数确定要选择的特征。相关系数大的特征应该更有助于识别这个模式。还有一种就是对现有的特征进行建模,根据残差与导师信号的相关系数进行特征选择。

四、距离
使用范围:有监督,分类
根据特征下,不同类别之间的距离选择距离最大的一些特征。

五、Least absolute shrinkage and selection operator(lasso)
基于线性回归,在最小二乘的目标函数上添加L1正则项(绝对值)。也可以用于多模特征选择(多任务学习)。

六、特征选择步骤
在特征选择过程中有前向逐步添加特征的特征选择方案,也有后向逐步删除特征的特征选择方案,也有将两者进行结合的混合特征选择方案,这些方案都是基于模型的特征选择方案。

参考博客:
干货:结合Scikit-learn介绍几种常用的特征选择方法
特征选择常用算法综述

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值