个人信贷产品的信用评分
商业银行三大风险流动性风险、市场风险(利率、信用)和操作风险,其他(欺诈风险)
信用风险:在合约到期日不完全履约
信用风险重要参数:PD(违约概率)、LGD(违约条件下的损失率)、EAD(违约风险下的敞口暴露)、RWA(风险权重资产)、EL(期望损失)
什么是评分卡模型
以分数形式来衡量风险几率的一种手段。
是对未来一段时间内违约/逾期/失联概率的预测。(每个评分卡对应的都有对应的人群)
通常分数越高越安全。
申请评分卡(资信状况)、行为评分卡(消费账户历史上表现,通常进行行为评分卡的产品期限至少会是半年以上还款的才能看到历史表现,比如房贷、车贷、信用卡有循环贷款的模式比较适用)、催收评分卡(违约概率评分卡(轻度逾期到违约)、损失回收评分、催收响应类评分卡)
评分卡常用模型
逻辑回归:简单、稳定、可解释、易于监测和部署 缺点准确率不高
决策树:对数据质量要求低(数值型非数值、缺失容忍、共现容忍)、易解释 缺点准确率不高
组合模型:准确率高、不易过拟合 缺点不易解释、计算量大
坏样本定义
M3 &M3+ 、债务重组、个人破产、银行主动关户或注销
时间窗口
观察期与表现期(行为评分卡)
表现期:搜集是否触发坏样本定义的时间窗口,与前面M1\M0什么的没关系,通常6个月~1年,但也不能定的过长,因为你的贷款产品的还款周期是固定的,如果表现期定的过长,那观察期的数据就会变少。过短模型会不稳定。
观察期:搜集特征的时间窗口,通常3年以内; 带有时间切片的变量(如果你的特征有多是长期特征,而你的新客户又没有使用很长时间的信贷产品,那不太适合放在这个评分卡里面)
行为评分卡
y:贷款产品用户在放贷后、产品期限结束之前的某段时间(表现期)内违约或逾期风险
适用产品:分期付款的产品房贷、车贷、装修贷;循环授信产品信用卡或纯信用类现金贷
常用特征
时间切片特征,例如观察期之前180天内,平均每月的逾期次数
还款率类型特征(本月还款率,过去半年内最大的还款率,过去半年内平均月还款率)、额度使用率特征(过去6个月内平均额度使用率,过去6个月内额度使用率增高的次数)、逾期类特征(过去6个月的最大逾期状态、过去6个月M1\M2\M3的次数)、消费类型特征(“国外使用”类型特征,“提现“”类型特征)
特征分箱
分箱:将连续变量离散化,除此之外将多状态的离散变量合并为少状态也属于。
分箱的重要性:稳定性(避免特征中无意义的波动对评分带来的波动)、健壮性(避免了极端值的影响)
分箱的优势:可以将缺失值作为一箱,将所有变量转换到同一尺度
分箱的限制:计算量大、分箱后需要编码
分箱的方法:
best-ks:
卡方分箱:相邻的属性对坏事件的相关性是不是一致,一致就合并。依赖于阈值的选定,也可以考虑最小区间数或最大区间数。
自由度是类别数-1,在置信度给定的情况下确定卡方阈值。
等距分箱、等频分箱
分箱的注意点: 连续变量如果有特殊值需要单独分箱。例如在还款率变量中,有时需将“上月末欠款额为0”的情形设置为特殊值-1,此时需要单独分箱。
WOE编码
分箱完之后的组别没有任何意义,所以需要编码。评分卡里面常用的编码是WOE编码,要计算WOE每个组别里面必须同时有好坏样本。
WOE的符号与好样本比例相关,要求回归模型的系数为负(坏样本比例值要小)
IV值
衡量特征包含预测变量浓度的一种指标。该变量的IV值是每一箱的IV值相加,一个变量只有一个IV。而IV是从加权后的WOE(权重是衡量差异的重要性,绝对值的重要性),WOE是每一箱都有的。一般分箱数越多IV值会越高,所以在计算IV值前要做较好的分箱。
用户衡量变量的区分度。
IV一定是正值、一个变量只有一个IV。
woe后如果变量的符号是正的,和我们的业务逻辑是相反的,我们认为该变量有问题。当我们特征工程完了以后,对于大部分变量我们不能直接丢到模型里面去的,需要做变量筛选,包括单变量分析和多变量分析。
单变量分析
分箱后的WOE值。
1. 如果分箱后,某一个特征的某一个值占比达90%以上,我们不建议把这个特征放到模型里面去。在分箱之前如果某变量的方差很小也可以提前进行删除。
2. 保证bad rate的单调性(U型也可以,再奇怪的不可以,要么拿掉要么重新处理分箱),但不能保证WOE的单调性,一般WOE不单调可能是某一箱占比过小
3. IV值要么0.1要么0.2
双变量分析
1. 消除两两变量的相关性。可以预估变量重要性,继而选择重要性更高的变量,例如借助与随机森林或GBDT对特征重要度的排序
2. 变量的多重共线性,β的估计无偏,但是会影响显著性。计算每个特征相对于其他特征的VIF,如果发现某个特征的VIF比较高,需要逐项排查是哪一个或哪几个,然后再根据IV决定拿掉哪个。
行为评分卡模型构建
逻辑回归不适合放很多变量,一般现实中使用IV+随机森林进行变量挑选。挑选完变量后,运行逻辑回归模型要求1. 系数的符号为负(woe=ln(G/B)) 2.系数显著
Lasso在保证一定精度的情况下,考虑模型的复杂度。
从模型到分数
模型验证与监控
预测能力指标:AR