基于逻辑回归的传统申请评分卡建模（toad库）之IV值

最新推荐文章于 2025-01-10 11:28:28 发布

原创

最新推荐文章于 2025-01-10 11:28:28 发布 · 2.5k 阅读

11 ·

CC 4.0 BY-SA版权

本文探讨了在数据挖掘和建模中如何使用IV（信息价值）作为特征筛选的重要指标。IV用于评价特征的预测能力，特别是在信贷业务的申请评分卡建模中，目的是区分好与坏客户。通过比较不同特征对目标客户识别的贡献，如家庭成员特征与多头平台借贷特征，展示了IV在评估特征有用性上的作用。IV的计算基于WOE（Weight of Evidence）值。

之前那篇文章简单介绍了一下A卡的概念、A卡所需的数据类型以及一些简单的特征衍生。
当我们拿到数据后，在数据挖掘和数据建模过程中，需要用到一些评价指标，来评价你的工作结果。

先看特征筛选部分：
1、IV（Information Value）：

(1)IV的用途
IV全称是Information Value,中文简称信息量或信息价值。
当我们用逻辑回归、决策树等模型对数据进行建模时，经常需要对特征进行筛选，那么在筛选入模变量时需要考虑哪些因素呢，需要考虑的因素有很多，比如，变量的预测能力、变量之间的相关性、变量的简单性、变量的可解释性等等，但其中最重要的是变量的预测能力，但变量的预测能力这个说法太笼统了。

（2）对IV的直观理解
回归到具体信贷业务上来理解，我们构建A卡的目的是什么？是为了区分出好坏客户，或者说是为了区分出目标客户与非目标客户。
与其类似的指标还有信息增益、基尼指数等等。
从直观逻辑上大体可以这样理解，当我们要去鉴别一个客户是否是bad客户时，我们要去调用它的信息去辅助我们做出判断，当我们得到一个特征时，我们要判断这个特征对我们去鉴别客户有没有用，有用的话，用处大不大？比如，我们同时得到了一个客户的家庭成员特征和多头平台借贷特征，显然两者都对我们去鉴别客户有帮助，但多头平台借贷数据的在大多数情况下明显更加有用。
总结一下，在自变量C1,C2…CN中，对于其中一个变量Ci来说，其蕴含的信息越多，那么它对于我们鉴别客户的贡献就越大，Ci的信息价值就越大，Ci的IV就越大，它就越应该进入的入模变量列表中。

（3）IV的计算
计算IV前，先看看WOE的计算，IV是在WOE基础上计算的。

在这里插入图片描述