(八十八):Pay Attention to MLPs

研究发现,基于门控的多层感知机(gMLP)在关键的语言和视觉任务中可以与Transformer匹敌,甚至在某些情况下无需自我注意力。gMLP模型在图像分类任务上表现出色,与DeiT8有类似性能,同时在BERT预训练和微调任务中,gMLP与Transformer达到同等效果,证实了自我注意力并非模型效能的决定因素。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

  • 出处:CoRR abs/2105.08050 (2021)
  • 代码:https://paperswithcode.com/paper/pay-attention-to-mlps#code
  • 题目:关注mlp
  • 主要内容:Transformer中基于门控的mlp

Abstract

《Transformers[1]》已经成为深度学习领域最重要的架构创新之一,并在过去几年中实现了许多突破。在这里,我们提出了一个简单的网络结构,gMLP,基于门控的mlp,并表明它可以在关键的语言和视觉应用程序中表现得和transformer一样好。

  1. 我们的比较表明,自我注意对于Vision transformer不是关键,因为gMLP可以实现同样的准确性。
  2. 对于BERT,我们的模型在训练前的困惑度上达到了变压器的水平,并且在一些下游的NLP任务上表现得更好。在gMLP性能较差的微调任务中,将gMLP模型大幅放大可以缩小与transformer的差距。
  3. 总的来说,我们的实验表明,gMLP可以在增加的数据和计算上伸缩和变形。

1. Introduction

Transformers[1]在自然语言处理方面

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Laura_Wangzx

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值