(八十八):Pay Attention to MLPs
- 出处:CoRR abs/2105.08050 (2021)
- 代码:https://paperswithcode.com/paper/pay-attention-to-mlps#code
- 题目:关注mlp
- 主要内容:Transformer中基于门控的mlp
Abstract
《Transformers[1]》已经成为深度学习领域最重要的架构创新之一,并在过去几年中实现了许多突破。在这里,我们提出了一个简单的网络结构,gMLP,基于门控的mlp,并表明它可以在关键的语言和视觉应用程序中表现得和transformer一样好。
- 我们的比较表明,自我注意对于Vision transformer不是关键,因为gMLP可以实现同样的准确性。
- 对于BERT,我们的模型在训练前的困惑度上达到了变压器的水平,并且在一些下游的NLP任务上表现得更好。在gMLP性能较差的微调任务中,将gMLP模型大幅放大可以缩小与transformer的差距。
- 总的来说,我们的实验表明,gMLP可以在增加的数据和计算上伸缩和变形。
1. Introduction
Transformers[1]在自然语言处理方面取得了许多突破(例如,[2,3,4,5,6]),并且在计算机视觉方面表现良好(例如,[7,8,9,10])。由于这一成功,transformer已经在很大程度上取代了LSTM-RNN[11]作为NLP的默认架构
研究发现,基于门控的多层感知机(gMLP)在关键的语言和视觉任务中可以与Transformer匹敌,甚至在某些情况下无需自我注意力。gMLP模型在图像分类任务上表现出色,与DeiT8有类似性能,同时在BERT预训练和微调任务中,gMLP与Transformer达到同等效果,证实了自我注意力并非模型效能的决定因素。
订阅专栏 解锁全文
1824

被折叠的 条评论
为什么被折叠?



