1、模型构建流程
1.1 实验设计
新的模型要跟原有方案对比,而且是通过实验证明,特别注意模型和策略不能同时调整。一般实验设计包含以下流程:
问题:业务稳定后,可以去掉人工审核吗?
答:不可以,一般模型上线后,高分段和低分段的表现较好,但中间段还是需要人工审核;而且即使模型完善后,我们只能减少人工审核,不可能完全舍弃人工审核。
1.2 样本设计
1.3 模型训练与评估
在进行模型选择与评估时,我们按照以下顺序进行模型评估:可解释性>稳定性>区分度。
区分度指标:AUC和KS
稳定性指标:PSI
AUC:ROC曲线下的面积,反映了模型输出的概率对好坏用户的排序能力,是模型区分度的平均状况。
KS:反映了好坏用户的分布的最大的差别,是模型区分度的最佳状况。
业务指标里,主要看通过率和逾期率。在合理逾期率的前提下,尽可能提高通过率。
A卡:更注重通过率,逾期率可以稍微低一些;
B卡:想办法降低逾期率,给好的用户提高额度。
2、逻辑回归模型构建
逻辑回归本质上还是一个回归问题,它的输出结果是[0,1]之间,那么这个结果可以对应到用户的违约概率上,我们可以将违约概率映射到评分上。
例如:
业内标准的评分卡换算公式score=650+50log2(P逾期/P未逾期)score = 650+50log_{2}(P_{逾期}/P_{未逾期})score=650+50log2(P逾期/P未逾期),那么这里怎么转化过去呢?我们来看以下的Sigmoid函数:
y=11+e−z=11+e−(wTx+b)y = \frac{1}{1+e^{-z}} = \frac{1}{1+e^{-(w^Tx+b)}}y=1+e−z1=1+e−(wTx+b)1
可以转化为以下公式:
ln(y1−y)=wTx+bln(\frac{y}{1-y})=w^Tx+bln(1−yy)=wTx+b
而我们评分换算公式可以进行以下变换:
log2(P逾期/P未逾期)=ln(P逾期1−P逾期)/ln(2)=(wTx+b)/ln(2)log_{2}(P_{逾期}/P_{未逾期}) = ln(\frac{P_{逾期}}{1-P_{逾期}})/ln(2) = (w^Tx+b)/ln(2)log2(P