为了小论文之Embedding

最新推荐文章于 2025-02-11 09:04:10 发布

70pice

最新推荐文章于 2025-02-11 09:04:10 发布

阅读量507

点赞数 1

文章标签：人工智能深度学习计算机视觉

原文链接：https://www.jianshu.com/p/63e7acc5e890

版权

Embedding

李沐老师没有Embdding相关的，我来补充一下8
https://www.jianshu.com/p/63e7acc5e890 主要还是参考这一篇文章，写的真的太好了。我直接照着打，顺便加深理解

torch.nn.Embedding(num_embeddings, embedding_dim, padding_idx=None,max_norm=None,  norm_type=2.0,   scale_grad_by_freq=False, sparse=False,  _weight=None)

num_embedding :词典的大小，尺寸，比如出现了5000个词，那就这个词典的大小是5000。本质上文本的纠错，是一个多分类问题，只是这个分类太大了而已。
embedding_dim，指定把一个词映射多少维度的
padding_idx：填充id，比如输出的长度是100，但是每次的句子长度并不能一样，这就需要用统一的字符去填充，，网络在遇到这个填充id的时候，就不会计算它的符号相关性（初始化为0）

那么Embedding底层是如何实现的呢？

['I am a boy.','How are you?','I am very lucky.']

假设有这么一个词典
明显这里有batch_size = 3,timestep_1 = 5,timestep_2 = 4，timestep_1 = 5 标点符号也算

[['i','am','a','boy','.'],['how','are','you','?'],['i','am','very','lucky','.']]

把这三个列表按元素多少的数量排序

batch = [['i','am','a','boy','.'],['i','am','very','lucky','.']，['how','are','you','?']]

查看他们的长度

lens = [5,5,4]

在这里我们需要把单词做成与字典做一个映射。也就是说，单词转换在字典中的index序号。字典是长这样的[hello:0,boy:1,test:3 ,]类似这样的
现在假设映射成

batch = [[3,6,5,6,7],[6,4,7,9,5]，[4,5,8,7]]

对于每一个句子，我们需要有一个终止符（可能也需要起始符，可能也需要间隔符，这里只是举个例子）,假设终止符EOF在词典中的index=1,那么输入变成

batch = [[3,6,5,6,7,1],[6,4,7,9,5,1],[4,5,8,7,1]]

长度变成

lens = [6,6,5]

我们发现，这个mini-batch中句子的长度不一致，对于长度不一致的句子，我们需要进行填充，需要进行补足,假设我们初始化PAD的符号是2

batch = [[3,6,5,6,7,1],[6,4,7,9,5,1],[4,5,8,7,1,2]]

对于这个输入input 他是一个 [36] batch_size * timestep的这么一个input
但是对于我们的输入，我们需要的是对每一个时间步进行迭代，也就是说，我们想要的是一个[63]的矩阵。也就是timestep*batch_size的矩阵，经过转换

batch = [[3,6,4],[6,4,5],[5,7,8],[6,9,7],[7,5,1],[1,1,2]]

embed_batch = embed (batch) 这样我们就获得了一个

[seq_len,batch_size,embedding_size]的矩阵

nn.embedding的输入只能是编号，不能是隐藏变量，比如one-hot，或者其它，这种情况，可以自己建一个自定义维度的线性网络层，参数训练可以单独训练或者跟随整个网络一起训练（看实验需要）
如果你指定了padding_idx，注意这个padding_idx也是在num_embeddings尺寸内的，比如符号总共有500个，指定了padding_idx，那么num_embeddings应该为501
embedding_dim的选择要注意，根据自己的符号数量，举个例子，如果你的词典尺寸是1024，那么极限压缩（用二进制表示）也需要10维，再考虑词性之间的相关性，怎么也要在15-20维左右，虽然embedding是用来降维的，但是>- 也要注意这种极限维度，结合实际情况，合理定义