Performer带头反思Attention,大家轻拍!丨ICLR2021

Performer是一种新型Transformer架构,通过高效通用注意力框架FAVOR+,实现了注意力机制的线性扩展,解决了传统Transformer处理长序列时的低效问题。此方法不仅加速了训练过程,还能处理更长的输入序列。

AMiner平台由清华大学计算机系研发,拥有我国完全自主知识产权。平台包含了超过2.3亿学术论文/专利和1.36亿学者的科技图谱,提供学者评价、专家发现、智能指派、学术地图等科技情报专业化服务。系统2006年上线,吸引了全球220个国家/地区1000多万独立IP访问,数据下载量230万次,年度访问量超过1100万,成为学术搜索和社会网络挖掘研究的重要数据和实验平台。

AMiner平台:https://www.aminer.cn

Transformer-based模型在众多领域已取得卓越成果,包括自然语言、图像甚至是音乐。然而,Transformer架构一直以来为人所诟病的是其注意力模块的低效,即长度二次依赖限制问题。随着输入序列长度的增加,注意力模块的问题也越来越突出,算力和内存消耗是输入序列长度的平方。这还怎么和长输入序列愉快玩耍?

那么先(大)贤(佬)们是怎么让Transformer-based模型应对长输入序列的呢?

今天,和大家分享一篇来自谷歌、剑桥大学、DeepMind、阿兰 · 图灵研究所投稿于ICLR 2021的论文《Rethinking Attention with Performers》。
在这里插入图片描述

论文地址:

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值