2025算法八股——深度学习——MHA MQA GQA

MHA、MQA、GQA 都是深度学习中注意力机制的相关概念,其中 MHA 是标准的多头注意力机制,MQA 和 GQA 则是其优化变体,以下是它们的区别、优缺点介绍:

区别

  • MHA(多头注意力):是 Transformer 架构的核心组件,会将输入的查询(Query)、键(Key)和值(Value)分别投影到多个不同的头中,每个头都拥有专属的 Q、K、V 映射参数,它们独立计算注意力,然后将多个头的结果拼接后投影回原始维度。
  • MQA(多查询注意力):属于 MHA 的优化方案,其所有的查询头共享同一组 K、V 参数,每个头依然保持独立的 Q,以此在保持查询头多样性的同时,大幅减少内存占用。
  • GQA(分组查询注意力):是 MHA 和 MQA 的折中方案,它先把查询头划分成若干个组,每组配备独立的 K、V 参数,而组内所有查询头共享该组的 K、V 来计算注意力,最后将头部输出拼接后经线性层整合。

优缺点

  • MHA
    • 优点:能让模型在不同的子空间中学习不同的注意力模式,提高了模型的表达能力,可使模型关注输入序列的不同部分,并且支持并行计算,能在 GPU 上高效执行。
    • 缺点:每个查询头都需要与多个键计算注意力,计算量较大,并且还需要存储多个 Q、K、V 头,大模型中显存占用较多。
  • MQA
    • 优点:由于所有查询头共享 K、V,极大减少了计算成本,尤其适用于推理阶段,也降低了内
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值