数据预处理-分箱（Binning）和 WOE编码

原创

已于 2023-09-16 00:21:13 修改 · 5.5k 阅读

CC 4.0 BY-SA版权

文章标签：

于 2023-09-15 22:09:00 首次发布

本文介绍了数据预处理中的分箱技术，包括理论背景、常用方法（如卡方分箱、决策树分箱）、等频等距分箱以及卡方值计算。此外，还详细讲解了WOE编码的概念和在分箱后如何进行WOE转换。以信用卡客户数据集为例，展示了如何使用toad库进行分箱和WOE编码的应用。

数据预处理-分箱（Binning）和 WOE编码

1. 分箱

1.1.1 定义 分箱就是将连续的特征离散化，以某种方式将特征值映射到几个箱(bin)中。

1.1.2 为什么要进行分箱？

1.1.3 常用分箱方法：

卡方值计算公式：

在这里插入图片描述

其中：

m: 箱的数量；

k: 类别数量；

A_ij: 第i个箱第j类中样本数量（频数）;

E_ij: 如果箱的划分和类别独立同分布，第i个箱第j类中样本数量的期望值（频数）；设箱的划分和类别独立同分布，则样本同时在第i个箱第j类中的概率为：p_ij = p_i * p_j，同时在第i个箱第j类中的有样本数量期望值为：p_ij * N 。

卡方值计算的例子，设m=2, k=2，

表1 实际频数

表2 期望频数（E_ij）

	类别1	类别2
箱1	E₁₁ = p_i * p_j * N =(R₁ /N) * (C₁ / N) * N = R₁ * C₁ / N	E₁₂ = R₁ * C₂ / N
箱2	E₂₁ = R₂ * C₁ / N	E₂₂ = R₂ * C₂ / N

表1和表2中的数据带入卡方值计算公式，即可求出箱1和箱2合并的卡方值。卡方值越小，说明真实值与期望值越接近，箱的划分和类别越接近独立同分布（类的划分和箱的划分没有关系），那么两个箱具有相同的标签分布，可以合并。

卡方检验步骤：

（1）初始化：根据连续变量值大小进行排序，构建最初的离散化，即把每一个单独的值视为一个箱体。这样做的目的是从每个单独的个体开始逐渐合并。

（2）合并：遍历相邻两项合并的卡方值，将卡方值最小的两组合并，不断重复直到满足分箱数目的限制。决策树分箱

聚类分箱

使用k-means进行聚类分箱，算法比较简单，不再详细说：先初始化k个类中心，每一次迭代将样本划分到最近的类中，然后修正类中心，直到类中心不再发生变化，停止迭代。
等频分箱

每一个箱中的样本数相同，实现很简单，先排序，按顺序放到对应的箱中即可。
等距分箱

箱的大小相同，例如年龄分箱：0-5岁，5-10岁，10-15岁，…
决策树分箱

将某一列数据作为训练集，将label作为结果，直接训练一个决策树，然后根据决策树的分裂节点的阈值作为分箱的依据。