- Shaw P, Uszkoreit J, Vaswani A. Self-attention with relative position representations[J]. arXiv preprint arXiv:1803.02155, 2018.
- 结合相对位置和绝对位置表征,翻译质量没有进一步提高。
- 英德互译实验结果

- In our experiments we did not observe any benefit from including sinusoidal position encodings in addition to relative position representations.
- Huang Z, Liang D, Xu P, et al. Improve transformer models with better relative position embeddings[J]. arXiv preprint
arXiv:2009.13658, 2020.
1. 提出观点: VanillaTransformer现有位置编码方式未能完全利用位置信息。
(…that existing work does not fully utilize position information.)
2. 绝对位置编码用于模拟一个位置的token如何关注另一个位置的token。
(The absolute position embedding is used to model how a token at one position attends to another to

该文探讨了Transformer模型中位置编码的作用,指出现有方法未能充分利用位置信息。绝对位置编码用于模拟不同位置间token的关注,但在某些任务(如NSP)中可能不适用,作者主张使用相对位置编码以提高模型的鲁棒性和训练效率。实验结果显示,相对位置编码在翻译质量上未表现出明显优势,但其方法更具优势。
最低0.47元/天 解锁文章
1490

被折叠的 条评论
为什么被折叠?



