从事金融风控的伙伴们一定遇到过这样的困扰:明明设定了300-950分的信用评分范围(对标FICO等国际标准),但在实际建模中总会产生负数评分。例如模型预测张三信用分为-300分,这会让业务方和用户摸不着头脑。像给用户贴上了"信用黑洞"的标签,既不符合业务逻辑又影响用户体验。这个问题互联网基本很少谈及这个专业问题,Toby老师有多年金融风控建模经验,知道其中奥妙。今天Toby老师就来拆解这个现象背后的技术密码。
一、评分卡模型的"基因缺陷"
传统线性评分卡的本质是将逻辑回归系数转换为直观的分数体系。其底层公式为:
Score = Base_Score + ∑(WOE_i * β_i)
其中:
- Base_Score
是基准信用分
- WOE
代表变量分箱后的证据权重
- β
是逻辑回归系数
当某些用户的负面特征(如严重逾期、多头借贷等)对应的负向系数累计值超过基准分时,总分就会跌入负数区间。这本质上反映了模型对极端风险用户的强烈预警。
二、四大调优方案精解
方案1:调节PDO参数(核心杠杆)
PDO(Points to Double Odds)是评分卡设计的灵魂参数:
- 标准设置
:通常取20-60分(FICO采用20)
- 调节效果
:PDO越小,单变量影响的分数跨度越小
- 实战案例
:当PDO从50调整为30时,相同特征带来的分数波动缩减40%
(示意图:不同PDO值对应的分数分布曲线)
方案2:卡方分箱优化(特征工程关键)
通过卡方合并分箱可显著降低极端值影响:
-
将原始10个分箱合并为5个主分箱
-
消除长尾异常值分箱
-
确保每箱IV值>0.02(也可以根据自己公司业务场景调整阈值)
某消费金融案例显示,优化后负分用户比例从3.7%降至0.2%。如果采用决策树分箱,模型更倾向于为得到更高AUC而把变量分为较多分箱,从而造成用户信用分数波动较大。从统计学意义来看,分箱太多也不好,有的箱的样本太少,应该合并,否则少量样本容易造成数据极端波动。
方案3:基准分校准(系统级防护)
建议采用"安全垫"设置:
Base_Score = 基准线 + 3σ(全量用户预测分标准差)
例如原本600分的基准分可提升至650分或750分,相当于建立50分的风险缓冲带。基准分数高了,信用分为负数情况也会减少。
三、复合调优策略路线图
推荐分阶段实施方案:
例如原本600分的基准分可提升至650分,相当于建立50分的风险缓冲带。
三、复合调优策略路线图
推荐分阶段实施方案:
某头部互金平台采用该策略后:
-
负分用户比例:从5.1%→0.05%
-
KS值:提升0.08
-
模型稳定性PSI:<0.1
四、延伸思考:负分的价值利用
虽然业务端要规避负分,但技术人员可以建立"影子评分体系":
-
开发预警子模型:负分用户自动触发人工复核
-
构建黑名单梯度:-100~0分划分三级风险预警
-
用于模型诊断:负分群体特征分析反哺特征工程
▍结语: Toby老师通过上述策略,可以完美解决模型预测信用分数为负数情况,并把负数转化为正数。信用评分的负值现象既是挑战也是机遇。通过参数调优、特征工程、系统防护的三重奏,我们不仅能修复这个"系统漏洞",更能深度挖掘数据价值。下次当模型再出现负分时,不妨把它看作优化迭代的契机,毕竟,风险识别的艺术就在于这种微妙的平衡之中。
版权声明:文章来自公众号(python风控模型),未经许可,不得抄袭。遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。