梁文峰署名的NSA 与 Kimi杨植麟署名的MoBA撞车,新注意力架构比拼

一、 Native Sparse Attention(NSA)实现原理与分析

请添加图片描述

核心思想
NSA 是一种硬件对齐、可原生训练的稀疏注意力机制,通过动态分层稀疏策略(粗粒度压缩 + 细粒度选择 + 滑动窗口)平衡全局上下文和局部精度,同时优化硬件效率。

关键技术点

  • 分层稀疏策略

    • 压缩分支(CMP):将序列分块聚合为粗粒度表示,降低计算量。

      请添加图片描述

    • 选择分支(SLC):基于块级重要性评分动态保留关键细粒度token。

      请添加图片描述

    • 滑动窗口(WIN):保留局部上下文,防止其他分支被局部模式主导。

  • 硬件优化

    • 针对现代 GPU 的 Tensor Core 设计块状内存访问,优化算术强度平衡。
    • 使用 Triton 实现高效内核,支持 GQA/MQA 架构的 KV 共享。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值