连续值特征分桶区间设置

最新推荐文章于 2024-08-13 09:15:00 发布

原创

最新推荐文章于 2024-08-13 09:15:00 发布 · 2.2k 阅读

·

1

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

本文探讨了数值特征分桶的方法，包括依据实际意义和数学分析两种方式。介绍了Odds、WOE和IV值作为评价分桶效果的指标，并详细阐述了等宽、等频、K-means和卡方统计等数学分析方法。分桶处理能够增强模型区分度，但也需要注意负面影响。

连续值特征分桶区间设置

依靠实际意义
评价指标
- Odds
- WOE
- IV值
依靠数学分析
- 等宽
- 等频
- K-means
- 卡方统计

我们实际遇到的数据经常会是连续取值的数据，比如一些表示计数或者量级的属性。

有些模型比如常用的梯度提升树系列（GBDT,XGB,LGB）可以不做任何处理的直接输入；
也有些模型（lr,nn）把数值属性去除量纲归一化后就可以作为输入;
但是一般为了方便处理或者提取出更有用的信息我们会做分桶或者说分箱处理。

设置几个阈值把总的取值区间划分为几个小区间（按照属性取值从小到大或者从大到小的顺序进行，不可跳跃。），每个样本的取值就会落在其中一个区间，如果阈值设置的好的话相当于人工再这个属性增加了一点区分度，更利于分类器性能，当然设置的不好的话也有对应的负面影响。

依靠实际意义

分桶区间的设置可以参考字段的实际意义，比如说字段是年龄的话显然可以大致分为儿童，青年，老年之类；某个测量指标可以分为弱，标准，强之类。这样的话不仅相当于引入问题背景的先验知识，得到的模型的解释性也更强（依赖于某属性低，或者高）。
但是更多的时候我们无法这样做，首先数据背景里面对于这个属性的划分可能比较粗放，不是理论上最好的划分；其次我们拿到的数据可能经过脱敏或者一些预处理，不知道该属性代表的实际意义是什么或者量纲发生了我们不知道的变动，无法直接上手用先验知识划分。这个时候我们就科学的问题就科学的来处理，再纯数学的角度做一些划分。

评价指标

在利用数学分析分桶之前，先介绍一下用来衡量我们分桶好坏（数学意义，可能不是模型中最优）的数学指标。

Odds

odds其实就是几率，假设事件发生的概率为 $P$ ,那么 $\frac{P}{1-P}$

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。