分类模型评价指标KS与IV的比较

         KS与IV均是用来衡量分类模型准确度的方法,在平常的实验中,用这两种方法得出来的结果往往表现一致。但是,这种一致并不是绝对的,在分析场景时,两个指标发生互相偏离的结果还是存在的。这种偏离的存在主要来自于两者计算方法的不同。为了考察造成这种不同的深层次原因,首先应当知道这两个指标的计算方法。‍

1、将全体样本按要分析指标的大小进行排序后,均分成N个箱体。
这里应该注意一点,若指标数值小被认为是导致坏样本的原因,则指标应按从小到大排列;若指标数值大被认为是导致坏样本的原因,则指标应按从大到小排列。
2、分别计算每个箱体内实际好样本数、实际坏样本数、累计好样本数、累计坏样本数、累计好样本数占比、累计坏样本数占比及累计好样本数占比与累计坏样本数占比之差额的平均值。
3、绘制累计坏样本数占比及累计好样本数占比的曲线,即为KS曲线。累计好样本数占比与累计坏样本数占比之差额的最大值即为KS值。若函数F(x1)=累计好样本数占比,G(x2)=累计坏样本占比,则KS值=max| F(x1)- G(x2)|。‍

以上定义对于我们来讲可能较难理解,我们举实例来说明。

假设A银行分析客户工资收入的高低对贷款逾期的影响能力。假设有2000个样本,我们对样本中工资收入按从低到高排序后分为10个箱体,如下所示。

一般认为,KS>20%,即说明有一定的预测能力;
KS>40%,说明预测能力较为突出;
KS>60%,说明预测能力非常突出;
如果KS>75%,说明预测能力已经杰出到难以置信的程度,需要观察指标是否存在着失真的情况。
IV的计算方法如下:
1、将全体样本按要分析指标的大小进行排序后,均分成N个箱体。
2、计算每个箱体中好样本与整体好样本、坏样本与整体坏样本的比例。
3、计算每组值的WOE、然后根据WOE计算IV,公式如下:‍

 

IV的计算中没有采用累积方法,而是单独计算各个箱体的WOE、IV,然后将各箱体加总后得到总的IV。
但是,简单的相加没有反映出影响的趋势变化。假设我们将第1、2、3箱的好坏样本个数与4、5、6箱
的好坏样本个数做替换后重新求值,可以看到,IV几乎没有变化,而KS则出现较大幅度的降低。

与此同时,IV较高的敏感性还会带来失真的负面效果:如果样本较小而分箱数较多,可能导致部分箱体
中好坏区分度表征意义不明显,造成IV过大或过小的情形出现。所以,我们在分箱的时候应当避免箱体
中的样本数量过少。如上个事例中,2000个样本分为10箱,一个箱体中只有200上下个样本,显然是
比较小的,这造成了IV值的结果很大。如果我们将2000个样本改分为5箱,使得一个箱体中的样本变
为400个上下,则IV就会变为0.4712。

 

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值