xgboost使用one-hot编码方式是否合理

糖葫芦君

于 2020-10-17 22:33:01 发布

阅读量3.6k

点赞数 1

分类专栏：机器学习文章标签：机器学习数据挖掘

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/yinyu19950811/article/details/109133372

版权

机器学习专栏收录该内容

24 篇文章

订阅专栏

one-hot编码方式

离散特征为什么要是用one-hot编码方式：

类别编码默认特征是有序的，不适用于离散特征
特征之间的距离计算方式更加合理
编码后每一维的特征都是独立的，可以看做是连续特征
无法考虑特征之间的相互关系

决策树与类别编码

在树模型中，当类别特征为数很高时，one-hot编码并不合适：

使用one-hot coding的话，意味着每一个决策节点上只能用one-vs-rest的切分方式，当特征维度高时，每个类别的数据都会比较少，产生的切分不平衡，切分增益也会很小
会影响决策数的学习，会把数据切分到很多零散的空间中，而决策树学习时利用的统计信息，在这些数据量小的空间中，统计信息不准确，学习会变差。

在决策数应该如何使用类别特征：

类比特征的最有切分？lightGBM
转化为数值特征
a)利用NN将one-hot训练为一个embedding
b)统计每个类别对应的label的均值（样本的均值)
c)其他的编码方式：

类别型特征编码方式

label encoding：直接将类别特征从字符串转换为数值
直方图编码：计算不同类别样本对应的正负样本比例，然后用这个比例来替换原始的类别标签

缺点：
1. 没有考虑类别特征不同类别数量的影响
2. 非常依赖于训练集中的样本标签的分布情况
计数编码
平均值编码：高势集类别（High Categorical）进行经验贝叶斯转换成数值feature

高基数定性特征的例子：IP地址、电子邮件域名、城市名、家庭住址、街道、产品号码。基数（cardinality）指的是这个定性特征所有可能的不同值的数量。在高基数（high cardinality）的定性特征面前，Label Encoding等数据预处理的方法往往得不到令人满意的结果。
target encoding目标编码：
封装了各种编码方式：https://github.com/scikit-learn-contrib/category_encoders/tree/master/category_encoders

参考资料

https://blog.youkuaiyun.com/pipisorry/article/details/61193868
https://www.zhihu.com/question/266195966

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。