- Shaw P, Uszkoreit J, Vaswani A. Self-attention with relative position representations[J]. arXiv preprint arXiv:1803.02155, 2018.
- 结合相对位置和绝对位置表征,翻译质量没有进一步提高。
- 英德互译实验结果
- In our experiments we did not observe any benefit from including sinusoidal position encodings in addition to relative position representations.
- Huang Z, Liang D, Xu P, et al. Improve transformer models with better relative position embeddings[J]. arXiv preprint
arXiv:2009.13658, 2020.
1. 提出观点: VanillaTransformer现有位置编码方式未能完全利用位置信息。
(…that existing work does not fully utilize position information.)
2. 绝对位置编码用于模拟一个位置的token如何关注另一个位置的token。
(The absolute position embedding is used to model how a token at one position attends to another token at a different position. )
3. 作者认为在NSP任务中绝对位置不合理,应该使用相对位置。
-
该论文提出的方法,鲁棒性强,易于训练。
-
作者对方法4更有信心。