特征选择方法


在这里插入图片描述

一、过滤法(Filter)

过滤法选择是一种与模型无关的变量选择方法,从变量的预测能力及对标签的区分能力考虑,常用指标有信息增益、信息增益比、基尼系数、IV值等。

1. 数据缺失情况变量筛选

删除缺失比例过高的变量。

2. 方差变量筛选

3. 预测能力变量筛选

常用指标:信息增益,信息增益比,基尼系数,卡方值等。

4. 基于业务理解的变量筛选(IV值,PSI值)

IV值是从类别角度考虑的,坏样本分布和好样本分布,反映输入变量对标签的预测能力,越大越好

I V = ∑ i M ( b a d i / b a d t o t a l − g o o d i / g o o d t o t a l ) log ⁡ ( b a d i / b a d t o t a l g o o d i / g o o d t o t a l ) = ∑ i M ( b a d i / b a d t o t a l − g o o d i / g o o d t o t a l ) W O E i \begin{aligned} IV &=\sum_i^M (bad_i/bad_{total}-good_i/good_{total})\log (\frac{bad_i/bad_{total}}{good_i/good_{total}}) \\ &=\sum_i^M (bad_i/bad_{total}-good_i/good_{total})WOE_i \end{aligned} IV=iM(badi/badtotalgoodi/goodtotal)log(good

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值