[论文笔记] PAI-Megatron 源码解读之Mistral的滑动窗口sliding window

本文详细解读了PAI-Megatron中Mistral的滑动窗口注意力机制,该机制通过限制注意力范围减少计算复杂度,提升长序列处理效率。文中还分析了代码实现,包括上三角矩阵的计算和注意力掩码的构造,以及解决在模型转换过程中遇到的报错问题,如4D掩码维度调整和内存溢出问题。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Mistral滑动窗口

        滑动窗口注意力(Sliding Window Attention,SWA)利用了变压器(Transformer)堆叠层的特性,以关注超出窗口大小W的信息。位于层k的位置i的隐藏状态hi,会关注到前一层中从i-W到i之间的所有隐藏状态。递归地,能够访问到输入层上距离高达W×k个令牌的位置,如图1所示。在最后一层,使用窗口大小为W=4096时,我们理论上的注意力范围大约为131K个令牌。实际上,对于一个长度为16K的序列和W=4096的情况,对FlashAttention [11] 和 xFormers [18] 所做的修改带来了与普通注意力基线相比2倍的速度提升。

        滚动缓冲缓存固定的注意力范围意味着我们可以使用滚动来限制我们的缓存大小缓冲区缓存。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

心心喵

喵喵(*^▽^*)

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值