【特征工程】变量编码方式

独热编码与哑变量详解

最新推荐文章于 2024-10-08 08:56:16 发布

原创最新推荐文章于 2024-10-08 08:56:16 发布 · 834 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#特征工程 #变量编码方式

机器学习专栏收录该内容

15 篇文章

订阅专栏

文章目录

- one-hot encoding(独热编码)
- dummy variable(哑变量)

我们在用模型去解决机器学习问题的时候，要提前进行“特征工程”。而特征工程中很重要的就是对特征的预处理。分类变量是另一类常见的变量，用于表示类别或标记。与数值变量不同的是，分类变量的值是不能被排序的，所以也称无序变量。分类变量处理的核心是如何编码类别。最简单的方式就是使用正整数编码类别，但是这样就使得类别之间有了顺序，相当于是引入了额外的特征信息，是不允许的。

例如著名的Kaggle泰坦尼克生还预测这个比赛中，乘客从哪里上船（Embarked）这个变量就是类别型变量。这三个登船点两两之间的相关度应该是一样的，即S地区和C地区，与S地区与Q地区的相关度应该一样，这样就意味着如果我给Embarked变量用Embarked=1来表示乘客在S地区上船，Embarked=2表示乘客在Q地区上船，Embarked=3表示乘客在C地区上船，这样就会认为S与Q的“距离”比S和C之间的距离更近，所以这样编码是不合理的。

正因如此，我们引入了离散型变量的编码方式——one-hot(独热编码)与dummy variable(哑变量)