作者丨happy
编辑丨极市平台

论文链接:https://arxiv.org/pdf/2110.11945.pdf
代码链接:https://github.com/fudan-zvg/SOFT
项目链接:https://fudan-zvg.github.io/SOFT/
本文是复旦大学&华为诺亚关于Transformer中自注意力机制复杂度的深度思考,首次提出了一种新颖的softmax-free 的Transformer 。本文从softmax self-attention局限性出发,分析了其存在的挑战;然后由此提出了线性复杂度的SOFT;再针对线性SOFT存在的训练问题,提出了一种具有理论保证的近似方案。所提SOFT在ImageNet分类任务上取得了比已有CNN、Transformer更佳的精度-复杂度均衡。
复旦大学与华为诺亚方舟实验室合作提出了一种名为SOFT的新颖Transformer模型,它摒弃了softmax自注意力机制,实现了线性复杂度。SOFT通过解决训练问题,保持了精度并优化了复杂度,在ImageNet任务上超越了CNN和传统Transformer的表现。论文和代码已公开。
3384

被折叠的 条评论
为什么被折叠?



