LSRA: 轻量级Transformer，注意力长短搭配

最新推荐文章于 2025-03-17 20:06:21 发布

原创

最新推荐文章于 2025-03-17 20:06:21 发布 · 1.8k 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#卷积 #算法 #人工智能 #python #机器学习

本文探讨了Transformer在资源限制设备上的效率问题，介绍了LSRA方法如何分离长短期注意力，通过深度卷积加速局部计算，显著降低计算需求，使其适用于端部署。研究了传统Transformer的计算瓶颈，提出了将注意力集中在长依赖并通过卷积处理短依赖的创新策略，展示了在翻译任务中的性能提升和注意力分布变化。

摘要: Transformer虽然效果好，但是却对资源要求比较高，很难在端设备上运行。在传统的Transformer中，每个block中都有Multi-head Attention和全连接层，其中，随着序列长度N的增大，全连接层的计算量是线性增长，而attent ...

人工智能学习离不开实践的验证，推荐大家可以多在FlyAI-AI竞赛服务平台多参加训练和竞赛，以此来提升自己的能力。FlyAI是为AI开发者提供数据竞赛并支持GPU离线训练的一站式服务平台。每周免费提供项目开源算法样例，支持算法能力变现以及快速的迭代算法模型。

最近要开始使用Transformer去做一些事情了，特地把与此相关的知识点记录下来，构建相关的、完整的知识结构体系。

Overall

Transformer虽然效果好，但是却对资源要求比较高，很难在端设备上运行。参考文献[1]提出了一种长短attention结合(Long-Short Range Attention, LSRA)的方式，有效的将一些计算节省掉，加速了模型的运行，使得模型可以在端设备上快速运行。

Transformer的计算瓶颈

在传统的Transformer中，每个block中都有Multi-head Attention和全连接层，其中，随着序列长度N的增大，全连接层的计算量是线性增长，而attention的计算量则是平方增长（如果不使用之前提的Performer类似

最低0.47元/天解锁文章

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。