Transformer新内核Synthesizer：低复杂度的attention代替点乘式的注意力机制

最新推荐文章于 2024-07-30 17:30:40 发布

BUAA～冬之恋

最新推荐文章于 2024-07-30 17:30:40 发布

阅读量1.3k

点赞数 2

分类专栏：论文阅读笔记

本文链接：https://blog.youkuaiyun.com/u013602059/article/details/107405896

版权

本文介绍了Google的最新研究《SYNTHESIZER: Rethinking Self-Attention in Transformer Models》。研究提出了Synthesizer，一种替代点乘式注意力机制的低复杂度方法。Synthesizer通过Dense和Random两种形式的Synthetic Attention避免了token间的两两交互，但仍能在翻译、语言建模等任务中展现出竞争力。实验结果显示，Synthesizer在某些情况下甚至优于传统的Transformer模型。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

在这里插入图片描述
论文链接：https://arxiv.org/pdf/2005.00743.pdf
参考文档：https://mp.weixin.qq.com/s/e2Cor8amz7GiFfBGdLXULg

导读

今天阅读的是一篇来自Google的最新论文《SYNTHESIZER: Rethinking Self-Attention in Transformer Models》，该论文重新探索了Transformer中注意力机制的必要性，并引入了新的attention计算方法Synthesizer。实验显示，即使不进行token之间的attention交互计算，synthesizer在翻译、语言模型、GLUE等任务上也可以达到很好的效果。

1、引言

1.1、什么是自注意力机制

自注意力机制算是解释性比较强的模型之一，它通过直接把序列两两比较（代价是计算量变为 $O(n^2)$ ，当然由于是纯矩阵运算，这个计算量相当也不是很严重），能够一步到位捕捉到全局的联系。相比之下，RNN 需要一步步递推才能捕捉到，而 CNN 则需要通过层叠来扩大感受野，这是 Self Attention 层的明显优势。
在这里插入图片描述
自注意力机制到底是如何生效的？这种“token”对“token”的注意力是必须的吗？ $Attention(Q,K,V)=softmax\left(\frac{QK^T}{\sqrt{d_k}}\right)V$ $Self-Attention(X)=Attention(XW_Q,XW_K,XW_V)=softmax\left(\frac{XW_QW_K^TX^T}{\sqrt{d_k}}\right)XW_V$

最低0.47元/天解锁文章