基于逻辑回归的传统申请评分卡建模(toad库)之IV值

本文探讨了在数据挖掘和建模中如何使用IV(信息价值)作为特征筛选的重要指标。IV用于评价特征的预测能力,特别是在信贷业务的申请评分卡建模中,目的是区分好与坏客户。通过比较不同特征对目标客户识别的贡献,如家庭成员特征与多头平台借贷特征,展示了IV在评估特征有用性上的作用。IV的计算基于WOE(Weight of Evidence)值。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

之前那篇文章简单介绍了一下A卡的概念、A卡所需的数据类型以及一些简单的特征衍生。
当我们拿到数据后,在数据挖掘和数据建模过程中,需要用到一些评价指标,来评价你的工作结果。

先看特征筛选部分:
1、IV(Information Value):

(1)IV的用途
IV全称是Information Value,中文简称信息量或信息价值。
当我们用逻辑回归、决策树等模型对数据进行建模时,经常需要对特征进行筛选,那么在筛选入模变量时需要考虑哪些因素呢,需要考虑的因素有很多,比如,变量的预测能力、变量之间的相关性、变量的简单性、变量的可解释性等等,但其中最重要的是变量的预测能力,但变量的预测能力这个说法太笼统了。

(2)对IV的直观理解
回归到具体信贷业务上来理解,我们构建A卡的目的是什么?是为了区分出好坏客户,或者说是为了区分出目标客户与非目标客户。
与其类似的指标还有信息增益、基尼指数等等。
从直观逻辑上大体可以这样理解,当我们要去鉴别一个客户是否是bad客户时,我们要去调用它的信息去辅助我们做出判断,当我们得到一个特征时,我们要判断这个特征对我们去鉴别客户有没有用,有用的话,用处大不大?比如,我们同时得到了一个客户的家庭成员特征和多头平台借贷特征,显然两者都对我们去鉴别客户有帮助,但多头平台借贷数据的在大多数情况下明显更加有用。
总结一下,在自变量C1,C2…CN中,对于其中一个变量Ci来说,其蕴含的信息越多,那么它对于我们鉴别客户的贡献就越大,Ci的信息价值就越大,Ci的IV就越大,它就越应该进入的入模变量列表中。

(3)IV的计算
计算IV前,先看看WOE的计算,IV是在WOE基础上计算的。

在这里插入图片描述
在这里插入图片描述

### 使用 Toad 实现逻辑回归评分卡分数计算 在 Python 中利用 `toad` 创建并应用逻辑回归评分卡,能够高效地完成从数据预处理到最终得分预测的一系列操作。具体来说,在定义好评分卡对象之后,可以通过调用 `.fit()` 方法拟合模型,并使用 `.predict()` 函数对新样本进行打分。 #### 创建评分卡实例 首先初始化一个 `ScoreCard` 类的对象,设置必要的参数如组合器(combiner) 和转换器(transer),这些组件用于管理特征的离散化以及WOE (Weight of Evidence) 转换: ```python import toad card = toad.ScoreCard( combiner=c, transer=transer, class_weight='balanced', C=0.1, base_score=600, base_odds=35, pdo=60, rate=2 ) ``` 此处设置了几个重要参数以定制评分系统的特性[^3]。 #### 训练评分卡模型 接着使用准备好的训练数据集来训练该评分卡模型。这一步骤会根据给定的数据自动调整内部权重和其他超参数,从而优化评分性能: ```python card.fit(final_data[col], final_data['isDefault']) ``` 这里的 `final_data[col]` 表示输入特征列,而 `final_data['isDefault']` 则为目标标签列,通常代表违约情况或其他风险指标。 #### 预测与可视化 一旦评分卡被成功训练,就可以将其应用于其他数据集中(例如开发集、验证集或线下测试集),并通过 `.predict()` 方法获取每条记录对应的预期分数。得注意的是,应当传递未经 WOE 编码和未分箱处理过的原始数据作为输入: ```python df_dev['score'] = card.predict(df_dev) df_val['score'] = card.predict(df_val) df_off['score'] = card.predict(df_off) plt.hist(df_dev['score'], label='dev', color='blue', bins=10) plt.legend() plt.show() ``` 这段代码不仅实现了分数预测,还展示了如何绘制直方图以便直观理解不同子集内个体的风险分布状况[^4]。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值