对于分类模型,在建立好模型后,我们想对模型进行评价,常见的指标有混淆矩阵、KS曲线、ROC曲线、AUC面积等。也可以自己定义函数,把模型结果分割成n(100)份,计算top1的准确率、覆盖率。之前阐述了混淆矩阵,本文阐述KS的原理和Python实现实例,其它指标会在后续文章中详尽阐述,敬请期待。
一、详细介绍KS
1 什么是KS
KS(Kolmogorov-Smirnov):好坏样本之间累计分布的差值(最大值),用于评估模型的风险区分能力。好坏样本的累计差异越大,模型的风险区分能力越强,KS指标越大。
2 理解KS的一个小例子
为了便于理解,举一个通俗易懂的小例子(非实际情况)。现假设有两百个样本,其中100个为逾期客户(标记为1),100个为正常客户(标记为0)。计算模型KS值的步骤如下:
-
step1:用这两百个样本训练一个模型(