从MHA、GQA、MQA到MHLA，注意力的几种处理方式

原创已于 2025-02-12 09:24:19 修改 · 609 阅读

·

10

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#人工智能 #深度学习 #transformer #自注意力

于 2025-02-12 09:12:56 首次发布

大模型专栏收录该内容

1 篇文章

订阅专栏

注意力机制定义

传统的注意力机制QK不同源。

而在自注意力机制中，QKV都来自于同一组元素，是想让机器注意到整个输入中不同部分之间的相关性。

计算方式：
$Attention(Q,K,V)=Softmax(\frac{Q·K^T}{\sqrt{d_k}})·V$

多头注意力（MHA，Multi-Head Attention）

原理

将输入序列的查询（Q）、键（K）、值（V）向量分别拆分成多个子空间，也就是多个头，每个头独立计算注意力权重并生成输出，最终拼接所有头的输出并通过线性层融合。

特点

并行捕捉不同语义/位置特征（例如一个头关注局部依赖，另一个头关注长程依赖）。
参数量与头数线性增长，计算复杂度为 O(n²)（序列长度平方），减少了计算量。

来源

《Attention Is All You Need》https://arxiv.org/pdf/1706.03762

分组查询注意力（GQA，Grouped Query Attention）

原理

将查询头（Q）分组，每组共享同一组键（K）和值（V）。例如，8个查询头分为2组，每组4个Q头共享1组K和V。

特点

平衡性能与效率：比MHA减少KV缓存（推理时内存占用更低），比MQA保留更多表达能力。
参数量介于MHA和MQA之间，适合长序列生成任务（如LLaMA-2）。

来源

《GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints》https://arxiv.org/pdf/2305.13245

多查询注意力（MQA，Multi-Query Attention）

原理

所有查询头（Q）共享同一组键（K）和值（V），即多个Q头对应1个K和1个V。

特点

显著减少KV缓存（推理时内存占用降低为MHA的 1/n_head），提升生成速度。
可能损失多样性：共享KV导致特征表达能力弱于MHA。

来源

《Fast Transformer Decoding: One Write-Head is All You Need》https://arxiv.org/pdf/1911.02150

多头潜在注意力（MHLA，Multi-Head Latent Attention）

原理

将输入映射到低维潜在空间，在潜在空间中执行多头注意力计算，最后映射回原始空间。具体就是将原本的矩阵拆分为两个矩阵相乘。如原矩阵维度为d_model*d_model，拆分为d_model*d_latent，其中（d_latent≪d_model），减少存储压力。

特点

降低计算复杂度：潜在维度 d_latent≪d_model，复杂度从 O(n²d)降至 O(n²d_latent)。
可能引入信息损失，需权衡压缩率与性能。

可以关注deepseek相关文档，其所用注意力就是该注意力机制。

欢迎指正和补充~

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。