去掉softmax后Transformer会更好吗?复旦&华为诺亚提出SOFT

复旦大学与华为诺亚方舟实验室合作提出了一种名为SOFT的新颖Transformer模型,它摒弃了softmax自注意力机制,实现了线性复杂度。SOFT通过解决训练问题,保持了精度并优化了复杂度,在ImageNet任务上超越了CNN和传统Transformer的表现。论文和代码已公开。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

作者丨happy
​编辑丨极市平台

论文链接:https://arxiv.org/pdf/2110.11945.pdf

代码链接:https://github.com/fudan-zvg/SOFT

项目链接:https://fudan-zvg.github.io/SOFT/

本文是复旦大学&华为诺亚关于Transformer中自注意力机制复杂度的深度思考,首次提出了一种新颖的softmax-free 的Transformer 。本文从softmax self-attention局限性出发,分析了其存在的挑战;然后由此提出了线性复杂度的SOFT;再针对线性SOFT存在的训练问题,提出了一种具有理论保证的近似方案。所提SOFT在ImageNet分类任务上取得了比已有CNN、Transformer更佳的精度-复杂度均衡。

阅读完整原文:去掉softmax后Transformer会更好吗?复旦&华为诺亚提出SOFT:轻松搞定线性近似

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值