逻辑回归中常用的概念: WOE、IV详解

本文详细介绍了逻辑回归中WOE(Weight of Evidence)和IV(Information Value)的概念及其作用。WOE是通过变量分组计算得到,用于衡量不同组别对目标变量的影响;IV则是衡量自变量预测能力的指标,基于WOE计算。通过对变量进行WOE编码,可以提升模型预测效果和可解释性,并辅助选择有较强预测能力的变量。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

    为了挑选并构造出对目标变量有较高预测力的自变量,需要对变量进行WOE编码,通过IV值的看变量的贡献。

1、WOE(weight of Evidence 证据权重)

    1)解释及公式

    WOE是对原始自变量的一种编码形式。

    要对一个变量进行WOE编码,需要首先把这个变量进行分组处理/离散化处理(等宽切割,等高切割,或者利用决策树来切割)。分组后,对于第i组,WOE的计算公式如下:

a05430730c0e14c66a09c3f13ad6c219.png

    其中:pyi为坏样本占所有坏样本的比例,py0好样本占所有好样本的比例;B为坏样本总数,Bi为变量i对应的坏样本个数,G为好样本总数,Gi为变量i对应的好样本个数 ;

    注:将模型目标变量y为1记为违约用户(坏样本),对于目标变量为0记为正常用户(好样本)

2)直观字面理解:

    WOE表示的实际上是“当前分组中坏客户占所有坏客户的比例”和“当前分组中好客户占所

有坏客户的比例”的差异。转化公式以后,也可以理解为:当前这个组中坏客户和好客户的比值,和所有样本中这个比值的差异。这个差异为这两个比值的比值,再取对数来表示的。

    WOE越大,这种差异越大,这个分组里的样本坏样本可能性就越大,WOE越小,差异越小,这个分组里的坏样本可能性就越小。

3)WO

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值