IV值与WOE-二元分类特征的选择

WOE(weight of evidence)和IV(Information Value)用于评估分类问题中变量的预测强度,常见于监督学习。它们在变量离散化策略选择和变量筛选中发挥关键作用。WOE反映了自变量对目标变量的影响,而IV值综合考虑了各组信息贡献,通常选择IV值在0.1-0.5之间的特征。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一、应用场景

WOE(weight of evidence)和IV(Information Value)主要用来判断变量的预测强度,比如判断用户收入对用户是否会发生逾期的预测强度。因此,两个值的使用主要是在有监督的分类问题中,具体可以细化到如下方面:

指导变量离散化。

在建模过程中,时常需要对连续变量进行离散化处理,如将年龄进行分段。但是变量不同的离散化结果(如:年龄分为[0-20]还是[0-15])会对模型产生不同影响。因此,可以根据指标所反应的预测强度,调整变量离散化结果。(对一些取值很多的分类变量,在需要时也可以对其进行再分组,实现降维。)

变量筛选。

我们需要选取比较重要的变量加入模型,预测强度可以作为我们判断变量是否重要的一个依据。

二、WOE

在这里插入图片描述
P(yi)代表第i组中,违约样本占所有违约样本的比例;

P(ni)代表第i组中,未违约样本占所有未违约样本比例;

y:所有违约样本数;

n:所有未违约样本数。

可知,WOE取值为全体实数,且在大于0部分,WOE越大表示分组中存

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值