torch.nn.Embedding的使用

torch.nn.Embedding

在使用pytorch进行词嵌入使用torch.nn.Embedding()就可以做到

nn.Embedding在pytoch中的解释

class torch.nn.Embedding(num_embeddings, embedding_dim, padding_idx=None, max_norm=None, 
norm_type=2, scale_grad_by_freq=False, sparse=False)

模块的输入是一个下标的列表,输出是对应的词嵌入。

参数:

  • num_embeddings (int) - 嵌入字典的大小
  • embedding_dim (int) - 每个嵌入向量的大小
  • padding_idx (int, optional) - 如果提供的话,输出遇到此下标时用零填充
  • max_norm (float, optional) - 如果提供的话,会重新归一化词嵌入,使它们的范数小于提供的值
  • norm_type (float, optional) - 对于max_norm选项计算p范数时的p
  • scale_grad_by_freq (boolean, optional) - 如果提供的话,会根据字典中单词频率缩放梯度

变量:

  • weight (Tensor) -形状为(num_embeddings, embedding_dim)的模块中可学习的权值

形状:

  • 输入: LongTensor (N, W), N = mini-batch, W = 每个mini-batch中提取的下标数
  • 输出: (N, W, embedding_dim)

Embedding的使用

参数的初始化
import torch
import torch.nn as nn
vocab={'a':0,'b':1,'c':2}
#nn.Embedding(1000,50)表示有1000个词,嵌入到50维中
#对比若是one-hot,1000个词将会是1000维
embedd=nn.Embedding(3,5)
Embedd

以简单一维的向量为例

#输入:LongTensor (N, W), N = mini-batch, W = 每个mini-batch中提取的下标数
#输出: (N, W, embedding_dim)
a_idx=torch.LongTensor(vocab['a'])#输入类型为LongTensor  a_idx=0
#a_idx在embedding处理后
a=embedd(a_idx)
print(a)
#输出:
#tensor([[ 0.9256,  1.1268, -0.5181, -0.2635,  1.9282]],grad_fn=<EmbeddingBackward>)#

我们输入二维的 i n p u t input input
输入: L o n g T e n s o r ( n , w ) LongTensor (n, w) LongTensor(n,w), n n n为样本的数量, w w w为每个样本中词数

#两组,每组有三个词0 , 1 ,2
inputs=torch.LongTensor([[0,2,1,1],[1,2,1,0]])
outputs=embedd(inputs)
print(outputs)

输出: ( n , w , e m b e d d i n g − d i m ) (n, w, embedding-dim) (n,w,embeddingdim)

tensor([[[ 0.9256,  1.1268, -0.5181, -0.2635,  1.9282],
         [-0.1351,  0.7759,  1.4697,  1.2225,  0.0390],
         [ 1.2778, -1.8050, -0.7962, -1.5764,  0.0664],
         [ 1.2778, -1.8050, -0.7962, -1.5764,  0.0664]],

        [[ 1.2778, -1.8050, -0.7962, -1.5764,  0.0664],
         [-0.1351,  0.7759,  1.4697,  1.2225,  0.0390],
         [ 1.2778, -1.8050, -0.7962, -1.5764,  0.0664],
         [ 0.9256,  1.1268, -0.5181, -0.2635,  1.9282]]],
       grad_fn=<EmbeddingBackward>)

因为初始化时* embedd=nn.Embedding(3,5)*
所以是 0, 1, 2三个词嵌入
当超过时就会报错
当inputs中出现 3

inputs=torch.LongTensor([[0,2,1,3],[1,2,1,3]])
outputs=embedd(inputs)
print(outputs)
#RuntimeError: index out of range: Tried to access index 3 out of table with 2 rows.#
### PyTorch `torch.nn.Embedding` 功能与用法 #### 嵌入层的主要功能 `torch.nn.Embedding` 是一种用于查找表(lookup table)的层类,主要用于将离散的数据(如单词、字符或分类变量)转换为其对应的低维稠密向量表示。这种技术广泛应用于自然语言处理领域中的词嵌入表示以及任何涉及离散特征的任务中[^3]。 该层的核心作用是从输入的一组索引值出发,返回这些索引所对应于预定义大小矩阵中的行向量作为输出。通过这种方式,可以有效地减少高维度稀疏数据的空间复杂度,并提升模型的学习效率。 #### 参数说明 以下是 `torch.nn.Embedding` 的主要参数及其含义: - **num_embeddings**: 表示嵌入矩阵的总行数,即字典或类别总数。 - **embedding_dim**: 每个嵌入向量的维度,也就是每一行的长度。 - **padding_idx (可选)**: 如果指定,则此位置上的嵌入不会被更新,在训练过程中保持不变。 - **max_norm (可选)**: 若设置,每次向前传播时都会重新缩放超过 max_norm 范围的嵌入向量。 - **norm_type (默认为 2.)**: 当设置了 max_norm 后,用来计算范数的方法,默认采用 L2 范数。 - **scale_grad_by_freq (布尔型, 可选)**: 对于稀疏梯度下降优化器而言,如果启用则按频率调整权重更新步幅。 - **sparse (布尔型, 默认 False)**: 是否使用稀疏梯度来节省内存消耗;仅当 optimizer 支持 sparse gradients 才能生效。 #### 使用方法 创建一个 Embedding 层实例之后,可以通过传递整数张量给这个对象来进行前向运算操作。传入的是形状为 `(N,)`, `(N,d0,...dn)` 或者其他形式的 LongTensor 类型数据结构,其中 N 表示批量样本数量。而输出则是相同批次尺寸但最后一轴扩展至 embedding_dim 维的新张量。 #### 示例代码 以下是一个简单的例子展示如何构建和应用 `torch.nn.Embedding`: ```python import torch import torch.nn as nn # 定义超参 vocab_size = 10 # 字典大小/类别数目 embed_size = 3 # 嵌入空间维度 # 初始化Embeddingembedding_layer = nn.Embedding(num_embeddings=vocab_size, embedding_dim=embed_size) # 创建一些假定的输入数据(假设batch size为2) input_tensor = torch.LongTensor([[1,2,4,5],[4,3,2,9]]) output_embedding = embedding_layer(input_tensor) print(output_embedding.shape) # 输出应为 [2, 4, 3], 即 batch * seq_len * embed_dim ``` 上述脚本展示了怎样初始化一个具有特定词汇规模和嵌入维度的 Embedding 层,并演示了其基本调用方式。注意这里生成了一个随机初始状态下的嵌入矩阵,实际项目里可能需要加载预先训练好的 GloVe 或 Word2Vec 来代替随机初始化部分。 --- 相关问题
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值