从熵不变性看Attention的Scale操作

最新推荐文章于 2024-06-09 19:08:44 发布

转载最新推荐文章于 2024-06-09 19:08:44 发布 · 184 阅读

·

0

·

CC 4.0 BY-SA版权

原文链接：https://kexue.fm/archives/8823

文章标签：

文章探讨了self-attention中使用sqrt(dk)作为缩放因子的原因，旨在保持方差和二阶矩的稳定性。作者提出了一个基于熵不变性的新视角，并且通过MLM实验验证了一个改进的缩放因子，该因子在长度外推性能上表现出优越性。

关于self attention里为什么sqrt(dk)，有几个角度的解释：

保证方差不变
保证二阶矩稳定，参考https://blog.youkuaiyun.com/taoqick/article/details/130798295?spm=1001.2014.3001.5502
这是下面转载文章提到的观点，笔者将从“熵不变性”的角度来理解这个缩放操作，并且得到一个新的缩放因子。在MLM的实验显示，新的缩放因子具有更好的长度外推性能。

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。