MHA、MQA、GQA 都是深度学习中注意力机制的相关概念,其中 MHA 是标准的多头注意力机制,MQA 和 GQA 则是其优化变体,以下是它们的区别、优缺点介绍:
区别
- MHA(多头注意力):是 Transformer 架构的核心组件,会将输入的查询(Query)、键(Key)和值(Value)分别投影到多个不同的头中,每个头都拥有专属的 Q、K、V 映射参数,它们独立计算注意力,然后将多个头的结果拼接后投影回原始维度。
- MQA(多查询注意力):属于 MHA 的优化方案,其所有的查询头共享同一组 K、V 参数,每个头依然保持独立的 Q,以此在保持查询头多样性的同时,大幅减少内存占用。
- GQA(分组查询注意力):是 MHA 和 MQA 的折中方案,它先把查询头划分成若干个组,每组配备独立的 K、V 参数,而组内所有查询头共享该组的 K、V 来计算注意力,最后将头部输出拼接后经线性层整合。
优缺点
- MHA
- 优点:能让模型在不同的子空间中学习不同的注意力模式,提高了模型的表达能力,可使模型关注输入序列的不同部分,并且支持并行计算,能在 GPU 上高效执行。
- 缺点:每个查询头都需要与多个键计算注意力,计算量较大,并且还需要存储多个 Q、K、V 头,大模型中显存占用较多。
- MQA
- 优点:由于所有查询头共享 K、V,极大减少了计算成本,尤其适用于推理阶段,也降低了内

最低0.47元/天 解锁文章
1400

被折叠的 条评论
为什么被折叠?



