机器学习中类别特征编码与不平衡数据处理
1. 类别特征编码的替代方法
在机器学习中,独热编码(One - Hot Encoding)是处理类别特征的标准方法,它将类别变量转换为多个二进制列。然而,这种方法存在一些明显的缺点:
- 维度快速增加 :例如,若特征表示观测来自美国的哪个州,独热编码会创建50个(若删除参考值则为49个)新列。
- 引入稀疏性 :创建大量布尔特征会使数据集变得稀疏,决策树难以处理。
- 纯度增益小 :决策树的分裂算法将独热编码的虚拟变量视为独立特征,每次分裂的纯度增益较小,树不太可能在靠近根的位置选择虚拟变量。
- 特征重要性低 :连续特征的特征重要性高于独热编码的虚拟变量,因为单个虚拟变量只能为模型带来相应类别特征总信息的一小部分。
- 处理高基数特征能力差 :梯度提升树由于基学习器深度有限,对高基数特征处理不佳。
为解决这些问题,下面介绍三种替代编码方法:
1. 目标编码(Target Encoding)
- 原理 :根据目标变量的类型对类别特征进行转换。对于分类目标,用给定类别下目标的后验概率与所有训练数据中目标的先验概率的混合值替换特征;对于连续目标,用给定类别下目标的期望值与所有训练数据中目标的期望值的混合值替换特征。在实际中,最简单的情况是用该类别下目标值的均值替换特征中的每个类别。
- 优点
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



