2025算法八股——深度学习——MHA MQA GQA

最新推荐文章于 2025-12-02 20:45:02 发布

原创

最新推荐文章于 2025-12-02 20:45:02 发布 · 549 阅读

·

3

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#深度学习 #人工智能

MHA、MQA、GQA 都是深度学习中注意力机制的相关概念，其中 MHA 是标准的多头注意力机制，MQA 和 GQA 则是其优化变体，以下是它们的区别、优缺点介绍：

区别

MHA（多头注意力）：是 Transformer 架构的核心组件，会将输入的查询（Query）、键（Key）和值（Value）分别投影到多个不同的头中，每个头都拥有专属的 Q、K、V 映射参数，它们独立计算注意力，然后将多个头的结果拼接后投影回原始维度。
MQA（多查询注意力）：属于 MHA 的优化方案，其所有的查询头共享同一组 K、V 参数，每个头依然保持独立的 Q，以此在保持查询头多样性的同时，大幅减少内存占用。
GQA（分组查询注意力）：是 MHA 和 MQA 的折中方案，它先把查询头划分成若干个组，每组配备独立的 K、V 参数，而组内所有查询头共享该组的 K、V 来计算注意力，最后将头部输出拼接后经线性层整合。

优缺点

MHA
- 优点：能让模型在不同的子空间中学习不同的注意力模式，提高了模型的表达能力，可使模型关注输入序列的不同部分，并且支持并行计算，能在 GPU 上高效执行。
- 缺点：每个查询头都需要与多个键计算注意力，计算量较大，并且还需要存储多个 Q、K、V 头，大模型中显存占用较多。
MQA
- 优点：由于所有查询头共享 K、V，极大减少了计算成本，尤其适用于推理阶段，也降低了内

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。