Embedding详解、怎么将多句话转为vector的？

深度解析神经网络与自然语言处理：理论与实践

最新推荐文章于 2025-07-23 17:14:34 发布

原创最新推荐文章于 2025-07-23 17:14:34 发布 · 540 阅读

10 ·

CC 4.0 BY-SA版权

文章标签：

#embedding #深度学习 #人工智能 #自然语言处理 #大语言模型 #langchain #ai大模型

API：

torch.nn.Embedding(num_embeddings,

embedding_dim,

padding_idx=None,

max_norm=None,

norm_type=2.0,

scale_grad_by_freq=False,

sparse=False, _weight=None)

num_embeddings (python:int) – 词典的大小尺寸，比如总共出现5000个词，那就输入5000。此时index为（0-4999）
embedding_dim (python:int) – 嵌入向量的维度，即用多少维来表示一个词。
padding_idx (python:int, optional) – 填充id，比如，输入长度为100，但是每次的句子长度并不一样，后面就需要用统一的数字填充，而这里就是指定这个数字，这样，网络在遇到填充id时，就不会计算其与其它符号的相关性。（初始化为0）
max_norm (python:float, optional) – 最大范数，如果嵌入向量的范数超过了这个界限，就要进行再归一化。
norm_type (python:float, optional) – 指定利用什么范数计算，并用于对比max_norm，默认为2范数。
scale_grad_by_freq (boolean, optional) – 根据单词在mini-batch中出现的频率，对梯度进行放缩。默认为False.
sparse (bool, optional) – 若为True,则与权重矩阵相关的梯度转变为稀疏张量。

为什么使用nn.Embedding()？

其实一句话说明白就是：

将原来（bz, max_length, dict_len）–> （bz, dict_len, embedding_dim）维度上，避免了ont-hot带来的稀疏性

bz：batch-size
max_length：一句话的最大长度（在cv中就是总共有多少类别，例如imageNet有1000类）
dict_len：字典长度，也就是组成所有句子的所有的独一无二的词有多少
embedding_dim：隐藏维度的大小

详解：

提到embedding_dim，就不得先从one_hot向量说起。

最初的时候，人们将word转换位vector是利用one_hot向量来实现的。简单来讲，现在词典一共5个字，[‘我’,‘是’,‘中’,‘国’,‘人’]，即num_embedding=5。

而现在有一句话‘我是人’，one_hot则利用一个长度为5的01 one_hot向量来代表这句话中的每个字【有多少个字，就有多少个one-hot编码，每个字都对应一个长度为字典长度的one-hot编码】，有：

我：[1 0 0 0 0 ]
是：[0 1 0 0 0 ]
人：[0 0 0 0 1 ]

显然，这种方法简单快捷，但是当词典的字很多，比如50000个字的时候，这种方法会造成极大的稀疏性，不便于计算。因此，为了改进这些缺点，embedding算是它的一个升级版

embedding翻译word是这样操作的，首先，先准备一本词典，这个词典将原来句子中的每个字映射到更低的维度上去。比如，字典中有50000个字，那按照One-hot方法，我们要为每个字建立一个50000长度的vector，对于embedding来说，我们只需要指定一个embedding_dim，这个embedding_dim<50000即可：

embedding表示法

见下图，原来one-hot处理一句话（这句话有length个字），那我们需要一个（length，50000）的矩阵代表这句话，现在只需要（length，embedding_dim）的矩阵就可以代表这句话（见上图）。

原来one-hot处理一句话（这句话有length个字），那我们需要一个（length，50000）的矩阵代表这句话

上面这张图是计算示意图，为了计算方便，我们将句子的最大长度设置为max_length，也就是说，输入模型的所有语句不可能超过这个长度。原来用one_hot向量表示的话，如果浓缩起来就是上面的那个长条，如果展开则是下方的那个矩阵。也就是说，当整个输入数据X只有一句话时，经过字典的映射，这句话变成（1，max_length，embedding_dim）

当输入数据X有多句话时，即Batch_size不等于1，则经过翻译之后，输入数据X变成（batch_size，max_length，embedding_dim）

因此，nn.embedding（num_embeddings,embedding_dim）的作用就是将输入数据（每个单词）降维到embedding_dim的表示层上，将多句话变成（batch_size，max_length，embedding_dim）维度的vector，得到了输入数据的另一种表现形式。

示例：

将2句话，每句话3个单词，字典大小为5，通过 nn.Embedding 到（batch_size，max_length，embedding_dim）维度上：

将词嵌入后的大小为（2,3,4），

更新的参数矩阵是一个 (5, 4)【这个就是nn.Embedding的大小】

import torch
from torch import nn


# 定义一个词典：{'!':0,'how':1, 'are':2, 'you':3,  'ok':4}
# 假定字典中有5个词，词向量维度为4
embedding = nn.Embedding(5, 4)

# 第一句话: how are you
# 第二句话：are you ok
# 将word用词典中的索引表示：
sentence = [[1, 2, 3],
            [2, 3, 4]]
# (2*3)：相当于2个句子，每个句子有3个词
sentence = torch.LongTensor(sentence)

# 将这些句子中的每个词embedding，得到(2*3*4)维度，相当于每个词被embedding到4维，共6个词被embedding
# 其实嵌入的每个单词就是在Embedding的对应索引中取张量
word2vec = embedding(sentence)

print(embedding.weight)
print(word2vec)

embedding.weight：

就是将字典的每个词embedding到某个维度，然后参数是可以更新的

werd2vec：

其实将每个句子中的单词进行embedding的核心就是将在embedding参数矩阵中根据索引在对应的行取出张量

如下示例，2个句子，共6个单词，就是根据索引[1,2,3]、[2,3,4]在embedding参数矩阵中根据索引取出张量

为什么要将nn.Embedding()的维度设置为(num_calss, hidden_dim)维度？

根据上述例子就可以知道，这是因为我们需要在dict中取出每个句子对应的行（取出embedding.weight中的某些行），所以这个num_calss一般设置为字典大小（在CV中就是设置为和类别数目一致），这样就可以取出每个类别对应的tensor，从而进行计算了

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述