
The Annotated Transformer
文章平均质量分 92
主要参考资料:1.https://nlp.seas.harvard.edu/2018/04/03/attention.html#embeddings-and-softmax
2.https://zhuanlan.zhihu.com/p/107889011
Che3rry
这个作者很懒,什么都没留下…
展开
-
【TheAnnotatedTransformers】Transformer的位置编码
三角位置编码属于绝对位置编码的一种。链接它应该为每个时间步长(句子中单词的位置)输出唯一的编码任意两个时间步之间的距离在不同长度的句子中应该保持一致我们的模型应该无需任何努力就能推广到更长的句子并且其值应该是有界的必须是确定的在Attention is all you need 原文中提出了该方法。ttt是输入句子所期望的位置,也就是token的位置,pt→∈Rdpt∈Rd是位置编码其中ωk1100002kdωk10000d。原创 2023-12-07 11:18:13 · 216 阅读 · 0 评论 -
【TheAnnotatedTransformer】(Mathematics)Embedding部分乘以根号d
以此来防止梯度消失和梯度爆炸(每一层的输出的方差接近于其输入的方差,从而避免梯度消失或梯度爆炸的问题),并且可以加快收敛速度(每一层输出的方差都接近输入的方差,使得每一层的梯度方差接近于1,这样每一层的参数更新幅度不会相差太大,从而加快收敛速度)首先我们对其效果做一个结论:这是由于后续要和positional encodeing部分的输出相加,所以一定要保持一个差不多的scale(来自李沐的答案)。首先经过初始化(Xavier初始化)的nn.Embedding.weight矩阵即。所以我们需要乘以一个。原创 2023-12-06 11:30:19 · 366 阅读 · 2 评论