one-hot 编码、multi-hot 编码和 Embedding

原创

于 2025-05-15 00:43:09 发布 · 1.2k 阅读

14 ·

CC 4.0 BY-SA版权

文章标签：

#embedding #one-hot #multi-hot

1. One-hot 编码

1.1 定义与数学表示

One-hot 编码 是一种将离散的类别型数据（categorical data）转化为二进制向量的方法。假设有 $N$ 个类别，每个类别被分配一个唯一的索引 $i$ （从 0 到 $N - 1$ ）。该类别的 one-hot 表示是一个长度为 $N$ 的向量，其中：

第 $i$ 个位置为 1。
其他位置为 0。

数学表示：
对于类别 $c_i$ （索引为 $i$ ），其 one-hot 向量为：
$vi=[0,0,…,1,…,0]\mathbf{v}_i = [0, 0, \dots, 1, \dots, 0]$
其中 $v_i[j] = 1$ 当 $j = i$ ，否则 $v_i[j] = 0$ 。

例子：
假设有 5 种动物（猫、狗、鸟、鱼、蛇），它们的 one-hot 编码为：

猫: [1, 0, 0, 0, 0]
狗: [0, 1, 0, 0, 0]
鸟: [0, 0, 1, 0, 0]
鱼: [0, 0, 0, 1, 0]
蛇: [0, 0, 0, 0, 1]

1.2 特点与性质

稀疏性：向量中只有 1 个元素为 1，其余为 0，导致存储效率低。
正交性：任意两个 one-hot 向量的点积为 0，余弦相似度为 0：
$i≠j\mathbf{v}_i \cdot \mathbf{v}_j = 0, \quad \text{if } i \neq j$
这意味着类别之间被假设为完全无关，没有语义相似性。
高维性：向量维度等于类别总数 $N$ 。当 $N$ 很大（例如 NLP 中词汇表有 10 万个单词），向量维度极高。
无序性：One-hot 编码不假设类别之间有任何顺序关系，适合无序的分类变量。

1.3 实现代码

以下是用 Python（NumPy 和 PyTorch）实现 one-hot 编码的示例：

NumPy 实现

import numpy as np

def one_hot_encode(index, num_classes):
    one_hot = np.zeros(num_classes)
    one_hot[index

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

爱看烟花的码农

关注关注

28
点赞
踩
14

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
打赏
打赏
打赏举报

举报

专栏目录

特征工程之One-Hot编码、label-encoding、自定义编码

迷茫与徘徊只会让你陷入绝境，欢迎私信博主，带你开始提升变现价值！

01-26

5857

目录 One-Hot编码代码实现 One-Hot编码优缺点 One-Hot编码使用场景归一化适用场景 label encoding 代码实现 One-Hot与label encoding对比自定义编码利用字典编码自定义函数每文一语 One-Hot编码到目前为止，表示分类变量最常用的方法就是使用 one-hot 编码（one-hot-encoding）或N 取一编码（one-out-of-N encoding），也叫虚拟变量（dummy variable）。虚拟变

深度学习篇--- one-hot 独热编码

道阻且长，行则将至。

09-13

1169

One-hot独热编码是一种将分类数据转换为数字格式的方法，通过为每个分类分配一个专属二进制向量（仅对应位置为1，其余为0），避免数值大小误导模型。适用于无顺序的名义变量（如性别、颜色），不适用于有序变量或类别过多的情况（易导致数据稀疏）。Python中可用pandas.get_dummies()快速实现。核心逻辑是用位置代替大小，确保分类平等性。

参与评论您还未登录，请先登录后发表或查看评论

NLP常用编码方式--onehot、word2vec、BERT

qq_52019496的博客

01-04

3410

BERT编码方式是依赖于huggingface官网所提供的预训练模型进行的，在使用时可以根据文字的具体类型和需要，在官网上下载，并使用pytorch调用模型对数据编码。在下面的示例中，我们首先加载了预训练的 BERT 模型和分词器（one-hot是一种词嵌入方式，编码方式较为较为简单，就是将每一个词或字都表示为一个向量，仅在该词或字所在的位置设置为1，其余位置均为零。在进行自然语言处理时，对文字进行编码一个十分必要的步骤文字编码的目的是将文本数据转换为计算机可以理解和处理的数字表示形式。

NLP中常用的文本编码方式：onehot,word2vect,embedding

weixin_46779338的博客

03-29

1393

假设我们给定的训练语料只有一句话: Hope can set you free (愿你自由成长)，窗口大小为3，因此模型的第一个训练样本来自Hope can set，因为是CBOW模式，所以将使用Hope和set作为输入，can作为输出，在模型训练时， Hope，can，set等词汇都使用它们的one-hot编码. 如图所示: 每个one-hot编码的单词与各自的变换矩阵(即参数矩阵3x5, 这里的3是指最后得到的词向量维度)相乘之后再相加, 得到上下文表示矩阵(3x1).["我", "喜欢", "你"]

One-hot编码和Multiple-hot编码

m0_59704905的博客

08-07

1869

multi-hot编码原理

weixin_40314737的博客

08-16

2万+

原创:转载请注明出处对于某个属性对应的分类特征,可能该特征下有多个取值,比如一个特征表示对哪些物品感兴趣,那么这个特征不是单个值,而是有多个取值,样本1 在该属性下取值有1,2两种特征, 样本2 在该属性下有2一种特征, 样本3 在该属性下有3,4 两种特征,如果以类似one-hot编码的形式来定义特征应为样本1 [1,1,0,0] 样本2 [0,1,0,0], 样本3 [0,0,1,1]...

【机器学习技巧】之特征工程：数字编码以及One-hot独热编码的几种方式（sklearn与pandas处理方式)

阿旭的博客

11-17

2677

【机器学习技巧】之特征工程：数字编码以及One-hot独热编码的几种方式（sklearn与pandas处理方式)

One-hot编码：标签转换为10维向量是什么意思

03-26

当存在多个有效类别时（如同时包含猫和狗），使用**Multi-hot编码**： ``` [1,0,1,0,...] # 多个位置为1 ``` **(2) 高基数类别** 当类别超过1000种时： - 优先考虑嵌入层（Embedding Layer） - 或采用哈希编码降低...

稀疏多分类数据（非one-hot编码）使用什么优化器和损失函数？

07-16

我们正在处理的是稀疏多分类数据，并且标签不是one-hot编码，而是整数形式的类别标签（例如，标签直接是0,1,2,...,n-1，而不是[1,0,0]这样的向量）。在这种情况下，我们需要选择...[^5]: 机器学习之----One-Hot编码转换

特征选择和特征编码 one-hot 标签编码似乎是相同道理

热门推荐

皮皮blog

03-10

7万+

在很多任务中，特征并不总是连续值，而有可能是分类值。例如，考虑一下的三个特征：如果将上述特征用数字表示，效率会高很多。例如：["male", "from US", "uses Internet Explorer"] 表示为[0, 1, 3]["female", "from Asia", "uses Chrome"]表示为[1, 2, 1]但是，即使转化为数字表示后，上述数据也不能直接用在我们的分类器中。

从0开始机器学习--4.1编码和嵌入(语义计算方法，onehot独热、word2vec、node2vec、TFIDF，LabelEncoder等各类编码器库函数，含代码)

zhuai.blog.youkuaiyun.com

10-03

1663

本文详细介绍了不同的编码（onehot）、嵌入（word2vec、node2vec）、文本提取（TF-IDF）方式，并介绍了不同的编码器库函数。

机器学习中的编码：Index编码、OneHot编码和Multiple编码及其对比

WaltSmith的博客

11-18

6302

文章目录一、 Index编码二、 OneHot编码独热编码优缺点什么情况下(不)用独热编码？什么情况下(不)需要归一化？三、 Multiple编码如何使用Multiple编码呢？四、编码比较参考文献一、 Index编码用来对离散的类型特征进行编码，如，不连续的数值、文本，将离散的特征转换成连续的数值型变量。基于索引的编码可以起到数据归一化的作用，如，id为1和10000，当id作为LR的特征...

词向量编码之：onehot编码和TfIdf的优缺点和区别

qq_40233706的博客

09-05

625

https://www.cnblogs.com/lianyingteng/p/7755545.html

multi-hot实现

WGS.

12-28

3101

Multi-hot举例理解：人的性别属性有男女两种，性格属性有乐观、悲观、和善、麻木，如果一个人，是男生，性格是乐观、和善的，那他可以用向量表示成：性别：[1,0] 性格：[1,0,1,0] from sklearn.preprocessing import MultiLabelBinarizer y = [[2,3,4],[2],[0,1,3],[0,1,2,3,4],[0,1,2]] # 假设y就是不同uid的观影偏好类别 MultiLabelBinarizer().fit_transform

multi-hot vector

qq_42521345的博客

08-21

1561

对于某个属性对应的分类特征,可能该特征下有多个取值,比如一个特征表示对哪些物品感兴趣,那么这个特征不是单个值,而是有多个取值,样本1 在该属性下取值有1,2两种特征, 样本2 在该属性下有2一种特征, 样本3 在该属性下有3,4 两种特征,如果以类似one-hot编码的形式来定义特征应为样本1 [1,1,0,0] 样本2 [0,1,0,0], 样本3 [0,0,1,1],但是这种变量不能够直接用embedding_lookup去做,embedding_lookup只接受只有一个1的one-hot编码,那..

机器学习常用编码方式：标签编码、序列编码、独热编码、频数编码、目标编码

m0_73663660的博客

03-07

6847

若分类编码与目标遍历间具有一定关联性，则适合使用目标编码，如一个城市的房价与其所处的区域有很大关系，使用目标编码计算同一个区域的平均房价来代替区域属性上的离散值：上海黄埔区的目标编码>上海嘉定区的目标编码。目标编码（Target Encoding）：目标编码将离散属性的每个类别编码为其在目标变量上的平均值或其他统计信息。2. 计算不同样本之间的距离有一定的意义，若想要得到更加精确的距离值，需要给定精确的映射表，如实际需要本科、硕士之间的距离

one-hot编码

躺平yyds的博客

08-21

2万+

one-hot编码，又称独热编码、一位有效编码。one hot在特征提取上属于词袋模型(bag of words)优缺点分析优点： - 一是解决了分类器不好处理离散数据的问题 - 二是在一定程度上也起到了扩充特征的作用(上面样本特征数从3扩展到了9) 缺点： - 它是一个词袋模型，不考虑词与词之间的顺序 - 它假设词与词相互独立(在大多数情况下，词与词是相互影响的) - 它得到的特征是离散稀疏的