4.18.2 EfficientViT:具有级联组注意力的内存高效Vision Transformer

最新推荐文章于 2024-08-08 07:41:54 发布

托比-马奎尔

最新推荐文章于 2024-08-08 07:41:54 发布

阅读量1k

点赞数 21

分类专栏： Transformer变形文章标签： transformer 深度学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/qq_47896523/article/details/138043616

版权

本文提出了一种新的模型构建方法，通过在FFN层间使用内存绑定的MHSA提高内存效率，同时引入级联组注意力以减少计算冗余。文章还探讨了如何通过结构化剪枝和优化内存密集操作来提升Transformer模型的速度和参数效率。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

现有Transformer模型的速度通常受到内存低效操作的限制，尤其是MHSA（多头自注意力）中的张量整形和逐元素函数。

设计了一种具有三明治布局的新构建块，即在高效FFN（前馈）层之间使用单个内存绑定的MHSA，从而提高内存效率，同时增强通道通信。

注意力图在头部之间具有高度相似性，导致计算冗余。

为了解决这个问题，提出了一个级联的组注意力模块，为注意力头提供完整特征的不同分割。

Transformer模型的速度通常受内存限制。内存访问延迟阻碍了GPU/CPU中计算能力的充分利用，从而对Transformer的运行速度产生严重的负面影响。

内存效率最低的操作是多头自注意力（MHSA）中频繁的张量整形和逐元素函数。通过适当调整MHSA和FFN（前馈网络）层之间的比例，可以在不影响性能的情况下显著减少内存访问时间。

通过向每个头提供不同的特征来显式分解每个头的计算来缓解冗余问题。

为了提高参数效率，我们使用结构化剪枝来识别最重要的网络组件，并总结模型加速参数重新分配的经验指导。

结构化剪枝是在神经网络已经训练好的情况下，按照一定的剪枝策略来修剪掉一部分神经元或连接，从而减少模型的大小，保持模型的精度，形成一个新的更加简单的模型。

最低0.47元/天解锁文章

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。