基于Toad的评分卡模型全流程详解(内含代码)

toad评分卡
toad是专为风险评分卡建模开发的工具包,支持从数据探索到模型评估的全流程。该工具包集成了多种分箱方法、WOE转换、特征筛选及模型评估等功能。

不知不觉中,Python已经在短短几年内一跃成为最热门的编程语言之一,尤其是在数据科学、人工智能和机器学习领域。这除了因为Python相对简单易学,可读性高之外,也有很大一部分原因是因为Python有着良好的开源生态从而产生了许多强大的第三方库,这些库可供直接调用,为开发人员的工作提供了极大的便利。关注“金科应用研院”,回复“优快云”,领取风控资料合集

风控领域亦是如此,以最常用、最经典的信用风险评分卡模型为例,第三方的库就有谢士晨博士开发的Scorecardpy以及今天我们要重点介绍的toad。

toad是针对风险评分卡的建模而开发的工具包,其功能全面,性能强大,从数据探索EDA、特征筛选、特征分箱、WOE变换,到建模、模型评估、转换分数,对评分卡模型的各个步骤都做了完整的封装,极大的简化了建模的复杂程度,深受从业人员的喜爱。

下面我们将根据建模实际的流程,分布为大家介绍toad包的各种功能。

在开始之前先简单说一下toad库的安装与升级,和其他的库一样,直接使用pip即可:
安装:pip install toad
升级:pip install --upgrade toad
0.导入库与数据读取

图片

可以看到,演示数据共有50000条数据,16个特征,包含14个特征变量,一列主键和一列标签(Defaulter)列。其中有若干个离散型变量和连续性变量,且有一定的缺失值。为了后续模型能够检验,我们使用sklearn里的train_test_split将数据划分为训练集(30000条)与测试集(20000条)。

1.EDA数据探索

(1)toad.detect(dataframe)

用于检测数据情况(EDA),方便我们对数据有一个总体的印象。输出每列特征的统计性特征和其他信息,主要的信息包括:缺失值、unique values、数值变量的平均值、离散型变量的众数等。如下面的cell,可以得到以下信息:
坏客户的占比为16.2%:Defaulter的mean为0.162;
部分特征有缺失值,且缺失值不等:注意missing列;
数值型变量和离散型变量有若干个,部分离散型变量的unique values较多,有10多个甚至61个:离散型变量的unique列。

图片

(2)toad.quality(dataframe, target=‘target’, iv_only=False)

输出每个变量的iv值,gini,entropy,和unique values,结果以iv值排序。'target’为目标列,'iv_only’决定是否只输

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值