特征离散化(四) 之 bestKS分箱
讲完了最小熵分箱,随便也提一下bestKS分箱吧。其实看懂了最小熵分箱,很容易就能理解bestKS分箱了。两个都是自顶向下的监督分箱方法,区别就在于确定划分点的指标不同。最小熵采用的是熵值,bestKS采用的KS值。
1. KS值
KS(Kolmogorov-Smirnov)用于评估模型区分风险的能力。描述的是数据中好坏样本累计部分之间的差距 。KS值越大,表示该变量的可区分度越高,越能将正,负样本区分开来。通常来说,KS>0.2即表示该特征有较好的准确率。这里的KS值是变量的KS值,而不是模型的KS值。
KS值的计算公式:
K S i = ∣ s u m i / s u m T − ( s i z e i − s u m i ) / ( s i z e T − s u m T ) ∣ KS_i = |sum_i / sum_T - (size_i - sum_i)/ (size_T - sum_T)| KSi=∣sumi/sumT