评分卡模型的工作流程主要分为以下几个步骤:
一、模型构建
假设模型训练集的观察点(即客户的申请时间段)为2014-01到2014-03,那么这个模型的观察期(这里我们假定为三年)为2011-01到2014-01,模型的表现期(这里我们假定为一年)为2014-03到2015-03。
对照上面的模型构建的时间来,我们来建立测试集,假定其测试集观察点(即客户的申请时间段)为(2015-04),同理可得观察期,和表现期真实的违约或者逾期与否。这时把模型放在这个测试集上进行测试看看效果如何。这里需要注意训练集和测试集上用户在表现期的表现如何都是基于一个已经发生的时间段上。
二、数据预处理
- 数据格式处理
<1>利率——带%的百分比,需要转化成浮点数
<2>日期——Nov17, 需要转化为Python的时间
<3>工作年限——<1 year 转化为0,>10 years 转化成11
2.文本类数据格式处理
<1>主题提取(NPL) 缺点:NPL的模型较为复杂,且需要足够多的训练样本
<2>编码 缺点:信息丢失很高
三、特征构造
1.常用特征衍生
<1>计数:过去1年内申请贷款的总次数
<2>求和:过去1年内的网店消费总额
<3>比例:贷款申请额度的年收入占比
<4>时间差:第一次开户距今时长
<5>波动率:过去3年内每份工作的时间的标准差
2.特征分箱(优势:可将缺失作为独立的一个箱带入模型,将所有变量变换到相似的尺度上)
<1>监督式分箱法
Best-KS 让分箱后组别的分布差异最大化
步骤:1.排序 X=X1,X2,…,Xk
2.计算每一点的KS值
3.选取最大的KS对应的特征值Xm,将X分为Xi<=Xm与Xi>Xm 两部分, 对于每一部分,重复2-3,直至满足终止条件之一
终止条件:1.下一步分箱后,最小的箱的占比低于设定的阈值(常用0.05