(八十八):Pay Attention to MLPs
- 出处:CoRR abs/2105.08050 (2021)
- 代码:https://paperswithcode.com/paper/pay-attention-to-mlps#code
- 题目:关注mlp
- 主要内容:Transformer中基于门控的mlp
Abstract
《Transformers[1]》已经成为深度学习领域最重要的架构创新之一,并在过去几年中实现了许多突破。在这里,我们提出了一个简单的网络结构,gMLP,基于门控的mlp,并表明它可以在关键的语言和视觉应用程序中表现得和transformer一样好。
- 我们的比较表明,自我注意对于Vision transformer不是关键,因为gMLP可以实现同样的准确性。
- 对于BERT,我们的模型在训练前的困惑度上达到了变压器的水平,并且在一些下游的NLP任务上表现得更好。在gMLP性能较差的微调任务中,将gMLP模型大幅放大可以缩小与transformer的差距。
- 总的来说,我们的实验表明,gMLP可以在增加的数据和计算上伸缩和变形。
1. Introduction
Transformers[1]在自然语言处理方面