sklearn处理离散变量的问题——以决策树为例

琦子k

已于 2023-10-14 09:47:58 修改

阅读量2.2k

点赞数 3

CC 4.0 BY-SA版权

文章标签： sklearn 决策树人工智能 boosting

于 2023-10-13 18:11:17 首次发布

本文链接：https://blog.youkuaiyun.com/QIzikk/article/details/133815704

文章讨论了在项目中处理高维类别特征时，CatBoost能直接指定有序编码，而XGBoost和随机森林需手动编码。决策树虽能处理离散特征，但sklearn中的CART将其视为连续处理。解决方法包括编码类别特征（one-hot,targetencoding,CatBoost编码），或考虑将高维类别特征直接编码为数值特征用于LGBM或CatBoost。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

最近做项目遇到的数据集中，有许多高维类别特征。catboost是可以直接指定categorical_columns的【直接进行ordered TS编码】，但是XGboost和随机森林甚至决策树都没有这个接口。但是在学习决策树的时候（无论是ID3、C4.5还是CART），肯定都知道决策树可以直接天然处理离散特征，那难道sklearn的决策树可以自己判断哪些特征是离散or连续？
在这里插入图片描述

决策树怎么处理连续特征

首先要明确，分类树和回归树，只是看label值是类别型还是连续型，和特征中是离散还是连续没有关系。并不是说CART回归树不能使用离散的特征，只是CART回归树里并不使用gini系数来计算增益。【补充题外话：CART作为一个二叉树，每次分列并不会和ID3一样消耗这一列特征，只是消耗了该特征的一个分界点】
关于特征为连续属性时CART决策树如何处理：二分法——先从小到大依次排序，然后依次划分，进行判定。具体可以参考这篇博客。
在这里插入图片描述

sklearn里的决策树怎么处理类别特征的

答案是——不处理。在sklearn实现的CART树中，是用同一种方式去处理离散与连续的特征的，即：把离散的特征也都当做连续的处理了，只能处理连续特征和做编码成数字的离散特征。
在这里插入图片描述

可以看这个问题，我的理解是sklearn为了速度对CART的原来算法做了一定的改进，不再按照原来的方法处理离散特征，而是都统一成连续特征来处理了【所以没有categorical_columns接口】。
其实理论上来说，XGB是可以用离散变量的，毕竟增益只和结点上的样本有关，特征只是决定树的结构：
在这里插入图片描述

解决方案

如果想使用DT、RF、XGB，离散特征需要人为进行处理。可以看这个博客，对类别特征进行编码。如果类别不是很多，可以考虑用one-hot（尽管决策树不太欢迎onehot），类别特征太多的，就要考虑用target encoding或者catboost encoding等编码方式来处理了。
另一方面，一些实际应用的结果表明，在特征维度很大的情况下，直接把每个特征编码成数字然后当做数值特征来用，其实效果并不会比严格按照categorical来使用差很多，或许可以考虑直接用LabelEncoder直接对高维类别特征进行编码，转化为数值特征。
~~或者考虑换LGBM、CatBoost~~