关于self attention里为什么sqrt(dk),有几个角度的解释:
- 保证方差不变
- 保证二阶矩稳定,参考https://blog.youkuaiyun.com/taoqick/article/details/130798295?spm=1001.2014.3001.5502
- 这是下面转载文章提到的观点,笔者将从“熵不变性”的角度来理解这个缩放操作,并且得到一个新的缩放因子。在MLM的实验显示,新的缩放因子具有更好的长度外推性能。

文章探讨了self-attention中使用sqrt(dk)作为缩放因子的原因,旨在保持方差和二阶矩的稳定性。作者提出了一个基于熵不变性的新视角,并且通过MLM实验验证了一个改进的缩放因子,该因子在长度外推性能上表现出优越性。
关于self attention里为什么sqrt(dk),有几个角度的解释:

8万+

被折叠的 条评论
为什么被折叠?