使用序数编码器代替独热编码器与树模型

数据预处理:名义特征与有序特征的编码方法

这篇文字主要介绍了在机器学习中处理名义特征(无序特征)和有序特征的两种常用编码方法:One-Hot 编码Ordinal 编码,并说明了它们在使用上的区别和优劣。

**名义特征(Nominal Feature)**是指没有自然顺序的分类特征,例如颜色。对于名义特征,通常使用 One-Hot 编码,它为每个类别创建一个新的特征列。例如,如果一个特征有 10 个可能的取值,One-Hot 编码将创建 10 个新的特征列。

**有序特征(Ordinal Feature)**是指具有自然顺序的分类特征,例如衬衫尺寸。对于有序特征,通常使用 Ordinal 编码,它将所有类别编码成一个特征列,并根据其顺序进行编号。例如,对于衬衫尺寸特征,可以将“小”编码为 0,“中”编码为 1,“大”编码为 2,“特大”编码为 3。

本文的重点在于:即使对于名义特征,使用 Ordinal 编码也能在某些情况下取得与 One-Hot 编码相似的精度,并且速度更快。

具体做法:

  1. 使用 Ordinal 编码对所有名义特征进行编码,即使这些特征实际上没有顺序。
  2. 将编码后的数据输入到一个基于树的模型(例如随机森林)中进行训练。

原因:

基于树的模型在决策过程中会自动寻找特征之间的关系,即使这些特征是使用 Ordinal 编码进行编码的。因此,即使 Ordinal 编码没有完全反映特征的顺序关系,模型仍然能够从数据中学习到特征之间的关联性。

总结:

在处理名义特征时,使用 Ordinal 编码与 One-Hot 编码相比,在精度上可能没有显著差异,但在速度上却有很大的优势。因此,在某些情况下,使用 Ordinal 编码可以作为一种更有效的数据预处理方法。

对于基于树的模型,即使对于名义(无序)特征,也尝试使用OrdinalEncoder而不是OneHotEncoder。 准确率通常会相似,但OrdinalEncoder会快得多!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

dataschool

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值