
在机器学习中为什么要进行 One-Hot 编码?
入门机器学习应用,尤其是需要对实际数据进行处理时,是很困难的。
一般来说,机器学习教程会推荐你或要求你,在开始拟合模型之前,先以特定的方式准备好数据。
其中,一个简单的例子就是对类别数据(Categorical data)进行 One-Hot 编码(又称独热编码)。
- 为什么 One-Hot 编码是必要的?
- 为什么你不能直接使用数据来拟合模型?
在本文中,你将得到上述重要问题的答案,并能更好地理解机器学习应用中的数据准备工作。
什么是类别数据?
类别数据是一种只有标签值而没有数值的变量。
它的值通常属于一个大小固定且有限的集合。
类别变量也常被称为 标称值(nominal)
下面举例说明:
- 宠物(pet)变量包含以下几种值:狗(dog)、猫(cat)。
- 颜色(color)变量包含以下几种值:红(red)、绿(green)、蓝(blue)。
- 位次(place)变量包含以下几种值:第一(first)、第二(second)和第三(third)。
以上例子中的每个值都代表着一个不同的类别。
有些类别彼此间存在一定的自然关系,比如自然的排序关系。
上述例子中,位次(place)变量的值就有这种自然的排序关系。这种变量被称为序数变量(ordinal variable)。
类别数据有什么问题?
有些算法可以直接应用于类别数据。
比如,你可以不进行任何数据转换,将决策树算法直接应用于类别数据上(取决于具体实现方式)。

本文介绍了在机器学习中进行One-Hot编码的原因,解释了类别数据的概念及其问题,详细阐述了整数编码与One-Hot编码的过程。通过One-Hot编码,可以将类别数据转换为数值数据,便于机器学习算法处理,避免错误的类别次序假设。
最低0.47元/天 解锁文章
132

被折叠的 条评论
为什么被折叠?



