【数据分箱】WOE，IV

最新推荐文章于 2025-10-20 11:59:37 发布

转载最新推荐文章于 2025-10-20 11:59:37 发布 · 1.9k 阅读

数据分箱是下列情形下常用的方法：

1.某些数值自变量在测量时存在随机误差，需要对数值进行平滑以消除噪音。

2.有些数值自变量有大量不重复的取值，对于使用<、>、=等基本操作符的算法（如决策树）而言，如果能减少这些不重复取值的个数，就能提高算法的速度。

3.有些算法只能使用分类自变量，需要把数值变量离散化。

数据被归入几个分箱之后，可以用每个分箱内数值的均值、中位数或边界值来替代该分箱内各观测的数值，也可以把每个分箱作为离散化后的一个类别。例如，某个自变量的观测值为1，2.1，2.5，3.4，4，5.6，7，7.4，8.2.假设将它们分为三个分箱，（1，2.1，2.5），（3.4，4，5.6），（7，7.4，8.2），那么使用分箱均值替代后所得值为（1.87，1.87，1.87），（4.33，4.33，4.33），（7.53，7.53，7.53），使用分箱中位数替代后所得值为（2.1，2.1，2.1），（4，4，4），（7.4，7.4，7.4），使用边界值替代后所得值为（1，2.5，2.5），（3.4，3.4，5.6），（7，7，8.2）（每个观测值由其所属分箱的两个边界值中较近的值替代）。

IV 值经验规则：

IV < 0.02 ：不具有预测能力

0.02<= IV < 0.1 ：预测能力很弱

0.1<= IV < 0.3 ：中等程度预测能力

IV >= 0.3 ：预测能力很强

IV 值法只适用于分类变量，可以通过调整分类阈值来提高IV值。使用IV值进行变量筛选时，可以计算出所有的分类变量的IV值，然后选择 IV值大于 0.1 或IV值最高的前 10% 变量。