DeepSeek近日发布论文Native Sparse Attention：硬件对齐且可原生训练的稀疏注意力机制

最新推荐文章于 2025-03-10 00:15:00 发布

歌刎

最新推荐文章于 2025-03-10 00:15:00 发布

阅读量1.3k

点赞数 49

分类专栏：学术研究综述 DeepSeek 文章标签：人工智能 nlp 深度学习自注意力机制长序列建模

本文链接：https://blog.youkuaiyun.com/MnivL/article/details/145834326

版权

DeepSeek 同时被 2 个专栏收录

18 篇文章

订阅专栏

学术研究综述

5 篇文章

订阅专栏

长序列建模一直是自然语言处理领域的难题，而 NSA 的出现，为解决这一难题提供了新的思路。

论文地址：https://arxiv.org/pdf/2502.11089v1

核心贡献

首次实现硬件对齐的稀疏注意力机制，显著提升长上下文建模效率。

技术突破点

创新方法：用动态分层稀疏策略替代传统全注意力机制
关键优势：在64k长度序列上，解码、前向传播和反向传播速度提升显著
基础原理：类似"给AI添加决策流程图"，通过压缩和选择关键信息减少计算量

现实影响

短期应用：加速长文本处理，如代码生成和文档分析
长期潜力：推动通用AI发展，实现更高效的长上下文推理
风险警示：可能在某些任务上引入信息丢失，需进一步优化

延伸思考

该研究与马斯克的脑机接口是否有结合可能？
如果技术开源，开发者最应该关注哪个模块？

资源索引

原文精简翻译

1. 引言

随着下一代大语言模型对长上下文建模的需求日益增加，标准注意力机制的高计算成本成为了一个显著的挑战。稀疏注意力机制为提高效率提供了有前景的方向，同时保持模型的能力。我们提出了NSA（Natively trainable Sparse Attention），一种硬件对齐且可原生训练的稀疏注意力机制，通过算法创新和硬件优化实现高效的长上下文建模。

图1：全注意力模型与NSA的性能和效率对比

图1展示了NSA在64k长度序列处理中的显著计算加速，同时在通用基准、长上下文任务和推理评估中超越全注意力基线。

2. 重新思考稀疏注意力方法

现代稀疏注意力方法在减少Transformer模型的理论计算复杂度方面取得了显著进展。然而，大多数方法主要在推理阶段应用稀疏性，而保留了预训练的全注意力骨干，这可能引入架构偏差，限制其充分利用稀疏注意力优势的能力。

2.1 高效推理的错觉

尽管许多方法在注意力计算中实现了稀疏性，但由于以下两个挑战，许多方法未能实现相应的推理延迟减少：

阶段限制的稀疏性：例如H2O在自回归解码期间应用稀疏性，但在预填充阶段需要计算密集的预处理。
与高级注意力架构的不兼容性：一些稀疏注意力方法无法适应现代解码高效架构，如多查询注意力（MQA）和分组查询注意力（GQA）。

2.2 可训练稀疏性的神话

我们分析推理方法的两个关键见解促使我们追求原生可训练的稀疏注意力：

性能下降：事后应用稀疏性迫使模型偏离其预训练的优化轨迹。
训练效率需求：高效处理长序列训练对于现代LLM开发至关重要。

3. 方法论

我们的技术方法涵盖算法设计和内核优化。我们首先介绍方法背景，然后介绍NSA的整体框架，接着是其关键算法组件，最后是我们硬件优化的内核设计。

3.1 背景

注意力机制广泛用于语言建模，其中每个查询标记计算与所有先前键的相关性分数，以生成值的加权和。

3.2 整体框架

为了利用自然稀疏模式的潜力，我们提出用更紧凑和信息密集的表示键值对替换原始键值对。

图2：NSA架构概述

图2展示了NSA的架构框架，通过三个并行注意力分支处理输入序列：压缩注意力、选择注意力和滑动窗口注意力。

3.3 算法设计

我们介绍了重新映射策略和的设计：标记压缩、标记选择和滑动窗口。

3.3.1 标记压缩

通过将键或值的顺序块聚合为块级表示，我们获得压缩的键和值，捕捉整个块的信息。

3.3.2 标记选择

仅使用压缩键和值可能会丢失重要的细粒度信息，促使我们选择性地保留单个键和值。

3.3.3 滑动窗口

在注意力机制中，局部模式通常适应得更快，并可能主导学习过程，防止模型从压缩和选择标记中有效学习。为了解决这个问题，我们引入了一个专门的滑动窗口分支，明确处理局部上下文。

3.4 内核设计

为了在训练和预填充期间实现FlashAttention级别的加速，我们在Triton上实现了硬件对齐的稀疏注意力内核。

图3：NSA的内核设计

图3展示了NSA的内核设计，通过GQA组加载查询（网格循环），获取相应的稀疏KV块（内部循环），并在SRAM上执行注意力计算。

4. 实验

我们通过三个视角评估NSA：通用基准性能、长上下文基准性能和链式思维推理性能，与全注意力基线和最先进的稀疏注意力方法进行比较。

4.1 预训练设置

我们的实验采用结合分组查询注意力（GQA）和专家混合（MoE）的骨干，总参数为27B，活动参数为3B。

图4：全注意力与NSA在27B参数模型上的预训练损失对比

图4展示了NSA和全注意力基线的预训练损失对比，NSA始终表现更好。

4.2 基线方法

除了与全注意力进行比较外，我们还评估了几种最先进的推理阶段稀疏注意力方法：H2O、infLLM、Quest和Exact-Top。

4.3 性能比较

模型	SQA	MQA	Synthetic	Code	Avg.
H2O	0.428	0.429	0.308	0.112	0.101
InfLLM	0.474	0.517	0.356	0.306	0.250
Quest	0.495	0.561	0.365	0.295	0.245
Exact-Top	0.502	0.605	0.397	0.321	0.288
Full Attn	0.512	0.623	0.409	0.350	0.305
NSA	0.503	0.624	0.432	0.437	0.356