deepseek3.2 exp注意力优化机制DSA

最新推荐文章于 2025-12-03 20:31:34 发布

原创

最新推荐文章于 2025-12-03 20:31:34 发布 · 829 阅读

12 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #自然语言处理

deepseek3.2 exp版本发布了，里面有一项注意力优化机制DSA（DeepSeek Sparse Attention）。DeepSeek Sparse Attention (DSA) 是在 DeepSeek-V3.2-Exp 中引入的一种稀疏注意力机制，而 MLA（Multi-head Latent Attention）是 DeepSeek-V3.1-Terminus 中使用的多头潜在注意力机制。DSA 并不是完全取代 MLA，而是在 MLA 的基础上进行扩展和优化，使其具备稀疏计算的能力，从而在长上下文场景中显著提升效率。为了更好的理解优化机制，先了解MLA。

MLA 全称 Multi-Head Latent Attention，即多头潜在注意力机制。它是 DeepSeek 团队为了优化 Transformer 模型在处理长序列时的效率和性能而提出的一种创新的注意力机制。理解 MLA，我们首先提下传统 Transformer 模型中的多头注意力机制 (Multi-Head Attention, MHA)。MHA 允许模型同时关注输入序列的不同部分，是 Transformer 模型成功的关键。然而，MHA 有一个显著的缺点：随着输入序列长度的增加，一个名为 KV 缓存 (Key-Value Cache) 的东西会线性增长，导致：内存占用巨大：尤其是在处理长文本或多轮对话时，KV 缓存会消耗大量显存。计算效率降低：每次生成新的内容，都需要重新计算和关注整个不断增长的 KV 缓存。为了解决这个问题，业界先后提出了 MQA (Multi-Query Attention) 和 GQA (Grouped-Query Attention) 等技术，它们通过共享一部分“键 (Key)”和“值 (Value)”来减小 KV 缓存。而 DeepSeek 的 MLA 则采用了更进一步的思路。

MLA 的核心思想是低秩联合压缩。它不再存储完整的、高维度的“键”和“值”，而是将它们压缩到一个低维的潜在空间中。将之想象成“抓重点”：传统 MHA：需要记住一篇文章里的每一个字词（完整的 KV 缓存）。

MLA：只记住这篇文章的核心思想和关键信息点（压缩后的潜在变量）。
技术实现步骤：

压缩 K 和 V：将高维