模型效果主要从两个方面衡量:
1.模型本身的效果,主要评价指标包括区分度、准确度等。
2.模型稳定性,主要评价指标包括PSI和CSI等。
之前阐述了模型本身的评价指标:混淆矩阵、F1值、KS曲线、count_table和ROC曲线AUC面积,本文介绍模型稳定性指标PSI。
一、详细介绍PSI
1 什么是PSI
PSI(Population Stability Index):群体稳定性指标,是通过对比历史样本分布和当前样本分布的波动,来衡量数据的稳定性。通常包括特征PSI和模型PSI。特征PSI关注特征的取值是否随时间推移发生大的波动,可用于模型训练和上线前特征选择、变量监控等。模型PSI关注训练集和验证集,以及模型上线部署后,模型的分布是否稳定。
为什么要关注模型的稳定性?
在风控建模中的IV和WOE一文中我们提到,可以用逻辑回归区分好坏客户的前提假设是“历史样本和未来样本服从同一总体分布”。模型通过从过去的数据中学习样本的分布特征,从而可以对现在的数据进行处理,判别出客户未来变坏的可能性。训练集和测试集源自同一时间段的样本分布,而验证集的分布与训练集并非总是一致