33、可解释性特征选择与工程中的过滤式特征选择方法

可解释性特征选择与工程中的过滤式特征选择方法

1. 过滤式特征选择方法概述

过滤式特征选择方法无需借助机器学习,可独立地从数据集中挑选特征。这些方法仅依赖变量的特征,具有高效、计算成本低且执行速度快的特点,因此通常是特征选择流程的首要步骤。

过滤式方法主要分为两类:
- 单变量方法 :逐个独立地评估和评级单个特征。但该方法可能会过滤掉过多特征,因为它未考虑特征之间的关系。
- 多变量方法 :会考虑整个特征空间以及特征之间的相互作用。

总体而言,过滤式方法在去除过时、冗余、常量、重复和不相关特征方面表现出色。然而,由于它无法处理只有机器学习模型才能发现的复杂、非线性和非单调的相关性及相互作用,当数据中存在这些关系时,其效果不佳。

过滤式方法可分为以下三类:
- 基础方法
- 相关性方法
- 排序方法

2. 基础过滤式方法

基础过滤式方法用于数据准备阶段,特别是在建模前的数据清理阶段。这样做的原因是,在此阶段进行特征选择决策对模型产生不利影响的风险较低,主要涉及一些常识性操作,如去除无信息或重复信息的特征。

2.1 基于方差阈值的常量特征处理

常量特征在训练数据集中不会发生变化,不携带任何信息,模型无法从中学习。可以使用单变量方法 VarianceThreshold 来过滤低方差特征,将阈值设为零,以仅过滤掉方差为零的常量特征。该方法仅适用于数值特征,因此需要先确定哪些是数值特征,哪些是分类特征。


                
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值