34、机器学习中类别特征编码与不平衡数据处理

机器学习中类别特征编码与不平衡数据处理

1. 类别特征编码的替代方法

在机器学习中,独热编码(One - Hot Encoding)是处理类别特征的标准方法,它将类别变量转换为多个二进制列。然而,这种方法存在一些明显的缺点:
- 维度快速增加 :例如,若特征表示观测来自美国的哪个州,独热编码会创建50个(若删除参考值则为49个)新列。
- 引入稀疏性 :创建大量布尔特征会使数据集变得稀疏,决策树难以处理。
- 纯度增益小 :决策树的分裂算法将独热编码的虚拟变量视为独立特征,每次分裂的纯度增益较小,树不太可能在靠近根的位置选择虚拟变量。
- 特征重要性低 :连续特征的特征重要性高于独热编码的虚拟变量,因为单个虚拟变量只能为模型带来相应类别特征总信息的一小部分。
- 处理高基数特征能力差 :梯度提升树由于基学习器深度有限,对高基数特征处理不佳。

为解决这些问题,下面介绍三种替代编码方法:
1. 目标编码(Target Encoding)
- 原理 :根据目标变量的类型对类别特征进行转换。对于分类目标,用给定类别下目标的后验概率与所有训练数据中目标的先验概率的混合值替换特征;对于连续目标,用给定类别下目标的期望值与所有训练数据中目标的期望值的混合值替换特征。在实际中,最简单的情况是用该类别下目标值的均值替换特征中的每个类别。
- 优点

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值