WOE IV值

本文深入解析信用评分卡模型中的WOE、IV等关键概念,并通过实例演示如何进行连续变量离散化处理及其对模型效果的影响。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

转载:评分卡模型剖析之一(woe、IV、ROC、信息熵)
 在开发信用评分卡模型时,连续变量的离散化是特征工程的重要步骤之一,主要是将连续变量转换为离散变量,同时根据不同分段对目标变量的影响力作数值转换。
 在将连续变量离散化的过程中,如果仅仅按照分段的顺序赋予新的数值,则无法确定新数值的具体值,合理的方法是按照不同分段对目标变量的影响赋值。
WOE公式如下:
w o e i = l n ( p y 1 p y 0 ) = l n ( B i / B T G i / G T ) woe_{i}=ln({\frac{p_{y_{1}}}{p_{y_{0}}}})=ln(\frac{B_{i}/B_{T}}{G_{i}/G_{T}}) woei=ln(py0py1)=ln(Gi/GTBi/BT)

AgeBadGoodWOE
0-1050200 l n ( 50 / 100 200 / 1000 ) = l n ( 50 / 200 100 / 1000 ) ln({\frac{50/100}{200/1000}})=ln({\frac{50/200}{100/1000})} ln(200/100050/100)=ln(100/100050/200)
10-1820200 l n ( 20 / 100 200 / 1000 ) = l n ( 20 / 200 100 / 1000 ) ln({\frac{20/100}{200/1000}})=ln({\frac{20/200}{100/1000})} ln(200/100020/100)=ln(100/100020/200)
18-355200 l n ( 5 / 100 200 / 1000 ) = l n ( 5 / 200 100 / 1000 ) ln({\frac{5/100}{200/1000}})=ln({\frac{5/200}{100/1000})} ln(200/10005/100)=ln(100/10005/200)
35-5015200 l n ( 15 / 100 200 / 1000 ) = l n ( 15 / 200 100 / 1000 ) ln({\frac{15/100}{200/1000}})=ln({\frac{15/200}{100/1000})} ln(200/100015/100)=ln(100/100015/200)
50以上10200 l n ( 10 / 100 200 / 1000 ) = l n ( 10 / 200 100 / 1000 ) ln({\frac{10/100}{200/1000}})=ln({\frac{10/200}{100/1000})} ln(200/100010/100)=ln(100/100010/200)
汇总1001000

以age为例,由于年龄是连续自变量,需要对其进行离散化处理,假设离散化为5组,Bad和Good表示在这五组中违约用户和正常用户的数量分布,最后一列为woe值的计算方法,通过计算公式可以看出,woe反应了自变量每个分组下违约用户对正常用户占比和总体中违约用户对正常用户占比之间的差异,从而可以直观的认为woe蕴含了自变量取值对于目标变量(违约概率)的影响。再加上woe计算形式与逻辑回归中目标变量的logistic变换( l o g i s t p = l n ( p 1 − p ) logist_{p}=ln({\frac{p}{1-p}}) logistp=ln(1pp))相似,因而可以将自变量woe值代替原先自变量值。
IV值计算公式如下:
I V i = ( B i B T − G i G T ) ∗ l n ( B i / B T G i / G T ) IV_{i}=(\frac{B_{i}}{B_{T}}-\frac{G_{i}}{G_{T}})*ln(\frac{B_{i}/B_{T}}{G_{i}/G_{T}}) IVi=(BTBiGTGi)ln(Gi/GTBi/BT)
 IV值是衡量某一个自变量的信息量,相当于自变量woe值的加权求和,其值大小决定了自变量对于目标变量的影响程度;另外IV值的计算公式与信息熵的计算公式非常相似。

举例说明

valueNn1n0p1p0cump1cump0woeiv
A122691051640.350.23428570.350.23428570.40139180.046446
A112741351390.450.19857140.80.43285710.81809870.205693
A14394463480.1533330.49714290.953330.93-1.17626320.404410
A136314490.04666670.071.01.0-0.40546510.009460
sum10003007001.01.02.02.00.00.666011

 数据来自著名的German credit dataset,取了其中一个自变量说明问题。第一列是自变量的取值,N表示对应每个取值的样本数,n1和n0分别表示违约样本与正常样本数,p1和p0分表表示违约样本和正常样本各自占总体的比例,cump1和cump0分别表示了p1和p0的累计值,woe是对应自变量每个取值的woe( l n ( p 1 p 0 ) ln(\frac{p1}{p0}) ln(p0p1)),iv是 w o e ∗ ( p 1 − p 0 ) woe*(p1-p0) woe(p1p0)。对iv求和就得到该变量的IV值。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值