torch.nn.Embedding学习

一休Q_Q

已于 2024-04-24 10:04:39 修改

阅读量289

点赞数 7

CC 4.0 BY-SA版权

分类专栏：自然语言处理深度学习文章标签： embedding 学习深度学习

于 2024-04-24 10:04:03 首次发布

本文链接：https://blog.youkuaiyun.com/eli00001/article/details/138148111

深度学习同时被 2 个专栏收录

14 篇文章

订阅专栏

自然语言处理

13 篇文章

订阅专栏

本文详细解释了PyTorch库中torch.nn.Embedding模块的参数含义，包括词典大小、嵌入维度等，以及其在神经网络训练中的算法逻辑，强调了与Linear的区别，特别是在模型第一层的使用情况。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

使用方法：

torch.nn.Embedding(num_embeddings, embedding_dim, padding_idx=None,
 max_norm=None,  norm_type=2.0,   scale_grad_by_freq=False, 
 sparse=False,  _weight=None)

参数含义：

num_embeddings (python:int) – 词典的大小尺寸，比如总共出现5000个词，那就输入5000。此时index为（0-4999）
embedding_dim (python:int) – 嵌入向量的维度，即用多少维来表示一个符号。
padding_idx (python:int, optional) – 填充id，比如，输入长度为100，但是每次的句子长度并不一样，后面就需要用统一的数字填充，而这里就是指定这个数字，这样，网络在遇到填充id时，就不会计算其与其它符号的相关性。（初始化为0）
max_norm (python:float, optional) – 最大范数，如果嵌入向量的范数超过了这个界限，就要进行再归一化。
norm_type (python:float, optional) – 指定利用什么范数计算，并用于对比max_norm，默认为2范数。
scale_grad_by_freq (boolean, optional) – 根据单词在mini-batch中出现的频率，对梯度进行放缩。默认为False.
sparse (bool, optional) – 若为True,则与权重矩阵相关的梯度转变为稀疏张量。

算法逻辑：

1.随机初始化词向量层，构建二维表，存储语料中每个词的词向量；

2.每个batch训练，计算每个句子的长度，记录长度，将单词转化为i词典中的序号，句子结尾加EOS，对长度不足的句子，进行填充；从词向量表中查找batch中单词的词向量，送入网络；

3.产出计算结果，送入网络的维度是[seq_len， batch_size]，产出结果维度是[seq_len， batch_size,embedding_size]，最后一个维度为词向量。

Embedding和Linear比较相似，Embedding输入时词的序号，Linear的输入是向量，一般在模型第一层放Embedding，模型后面不再使用Embedding，使用Linear。