最重要的事情开始都会讲:建模是始终服务于业务的,没有业务的评分卡就没有灵魂
概率值转化为分数的意义
核心在于业务的使用、理解和策略的决策
首先全部为概率值时,在样本不均衡条件下,概率值分布基本都维持在0.9以上,概率的分布在[0,1],
分布属于变态分布,分值的转化目的是将变态分布转化为类正态分布,更加偏重于实际的使用,也就是两边少中间多,便于做决策
不过需要建模的过程,很多时候样本的比例来讲不会说单纯的基于实际客群的比例去做,而是以更好地训练模型的效果,更好的识别坏客户,因为把坏客户识别成好客户的损失要比好客户识别成坏客户的损失大
建模的训练和验证的方式
建模的样本一般好快客户比例相当,样本量(从小贷角度一般需要几万样本)
验证样本基于实际客群的比例
评分卡的使用
评分卡的使用的基础在于分值转化,核心在于如何使用分数
分值
页面上也有很多人会操作这类型的数据,但是实际上我需要讲解的东西在于如何对数据结果进行统计
分值转化这里面有几个关键性指标需要讲一下
1 目标客群即 Y = 1 是好客户,坏客户
2 期望目标客户的分值高还是低
一般来讲,倾向于好客户的分值更高一些
当这两件事情弄明白后开始接下来实际共有四种情况存在,每一种情况计算一种情况的公式即可
违约与正常的比率的定义
一个记录被划分为违约的估计概率 P和被划分为正常的估计概率 1-P
这两个事件互成补集,即其概率之和等于1
Odds =P/(1-P)(坏概率/好概率)
如果我们的目标客群是好客户,那么按照实际情况坏客户的概率 是 1-P
当定义好了,我们不需要管公式,我们只需要知道分子是坏客户概率,分母是好客户概率
评分卡设定的分值刻度可以通过降分值通过比率对数的线性表达式来定义:
负号是为了表示违约概率越低,分值越高
下面的公式是z的计算方式
概率值的计算结