离散型特征编码方式：one-hot与哑变量*

最新推荐文章于 2024-07-18 13:15:32 发布

daydayup_668819

最新推荐文章于 2024-07-18 13:15:32 发布

阅读量1.9k

点赞数 2

CC 4.0 BY-SA版权

分类专栏： python 机器学习文章标签：离散特征 one-hot编码哑变量编码

本文链接：https://blog.youkuaiyun.com/daydayup_668819/article/details/82109484

本文介绍了离散型特征的编码方式，包括one-hot编码和哑变量编码。这两种编码方法用于增强模型的非线性能力，尤其在简单模型如LR中。one-hot编码将每个离散值转化为一个状态位，而哑变量编码则通过删除一个状态位来表示类别。文章探讨了两者的区别、联系，并讨论了如何通过这两种编码提升模型的非线性能力，以及在实际应用中如何选择编码方式。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

　　在机器学习问题中，我们通过训练数据集学习得到的其实就是一组模型的参数，然后通过学习得到的参数确定模型的表示，最后用这个模型再去进行我们后续的预测分类等工作。在模型训练过程中，我们会对训练数据集进行抽象、抽取大量特征，这些特征中有离散型特征也有连续型特征。若此时你使用的模型是简单模型（如LR），那么通常我们会对连续型特征进行离散化操作，然后再对离散的特征，进行one-hot编码或哑变量编码。这样的操作通常会使得我们模型具有较强的非线性能力。那么这两种编码方式是如何进行的呢？它们之间是否有联系？又有什么样的区别？是如何提升模型的非线性能力的呢？下面我们一一介绍：

one-hot encoding

　　关于one-hot编码的具体介绍，可以参考一篇博客，博客地址：特征提取方法: one-hot 和 IF-IDF。这里，不再详细介绍。one-hot的基本思想：将离散型特征的每一种取值都看成一种状态，若你的这一特征中有N个不相同的取值，那么我们就可以将该特征抽象成N种不同的状态，one-hot编码保证了每一个取值只会使得一种状态处于“激活态”，也就是说这N种状态中只有一个状态位值为1，其他状态位都是0。举个例子，假设我们以学历为例，我们想要研究的类别为小学、中学、大学、硕士、博士五种类别，我们使用one-hot对其编码就会得到：

dummy encoding

哑变量（Dummy Variable），也叫虚拟变量，引入哑变量的目的是，将不能够定量处理的变量量化，如职业、性别对收入的影响，战争、自然灾害对GDP的影响，季节对某些产品（如冷饮）销售的影响等等。这种“量化”通常是通过引入“哑变量”来完成的。根据这些因素的属性类型，构造只取“0”或“1”的人工变量，通常称为哑变量（dummy variables），记为D。

　　哑变量编码直观的解释就是任意的将一个状态位去除。拿上面的例子来说，我们用4个状态位就足够反应上述5个类别的信息，也就是我们仅仅使用前四个状态位 [0,0,0,0] 就可以表达博士了。只是因为对于一个我们研究的样本，他已不是小学生、也不是中学生、也不是大学生、又不是研究生，那么我们就可以默认他是博士。（额，当然他现实生活也可能上幼儿园，但是我们统计的样本中他并不是，^-^）。所以，我们用哑变量编码可以将上述5类表示成：