AMiner平台由清华大学计算机系研发,拥有我国完全自主知识产权。平台包含了超过2.3亿学术论文/专利和1.36亿学者的科技图谱,提供学者评价、专家发现、智能指派、学术地图等科技情报专业化服务。系统2006年上线,吸引了全球220个国家/地区1000多万独立IP访问,数据下载量230万次,年度访问量超过1100万,成为学术搜索和社会网络挖掘研究的重要数据和实验平台。
AMiner平台:https://www.aminer.cn
Transformer-based模型在众多领域已取得卓越成果,包括自然语言、图像甚至是音乐。然而,Transformer架构一直以来为人所诟病的是其注意力模块的低效,即长度二次依赖限制问题。随着输入序列长度的增加,注意力模块的问题也越来越突出,算力和内存消耗是输入序列长度的平方。这还怎么和长输入序列愉快玩耍?
那么先(大)贤(佬)们是怎么让Transformer-based模型应对长输入序列的呢?
今天,和大家分享一篇来自谷歌、剑桥大学、DeepMind、阿兰 · 图灵研究所投稿于ICLR 2021的论文《Rethinking Attention with Performers》。

论文地址:

Performer是一种新型Transformer架构,通过高效通用注意力框架FAVOR+,实现了注意力机制的线性扩展,解决了传统Transformer处理长序列时的低效问题。此方法不仅加速了训练过程,还能处理更长的输入序列。
最低0.47元/天 解锁文章
2万+

被折叠的 条评论
为什么被折叠?



