MQA(Multi-Query Attention)详解

最新推荐文章于 2025-06-18 13:30:18 发布

原创

最新推荐文章于 2025-06-18 13:30:18 发布 · 2.8k 阅读

·

7

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#人工智能 #深度学习

论文名称：Fast Transformer Decoding: One Write-Head is All You Need

论文地址：https://arxiv.org/abs/1911.02150v1

MQA(Multi-Query Attention)是Google团队在2019年提出的，是MHA (Multi-head Attention，多头注意力机制)的一种变体，也是用于自回归解码的一种注意力机制。

传统的MHA是将输入划分为多个Head，并为每个Head独立计算注意力。在MHA中的，Q、K、V会根据每个head做不同的转换（模拟：每个Head都有自己的感知域/parameter sets，可以独立学习输入中的不同特性）。这在Head数量较多时候可能会存在计算密集的问题。

而与MHA 不同的是，MQA 让所有的Head之间共享同样的一份 K 和 V 矩阵（意味K和V的计算唯一），只让 Q 保留了原始多头的性质（每个Head存在不同的转换），从而大大减少 K 和 V 矩阵的参数量以及KV Cache的显存占用，以此来达到提升推理速度，但是会带来精度上的损失。技术被大量应用于大预言模型，如ChatGLM2。

最低0.47元/天解锁文章

200万优质内容无限畅学

云从天上来

博客等级

码龄9年

54
原创

497
点赞

982
收藏

269
粉丝

关注

私信

热门文章

分类专栏

展开全部收起

上一篇：: FlashAttention解析——大预言模型核心组建

下一篇：: ChatGLM系列解析（二）—— ChatGLM2

最新评论

ResNet 残差、退化等细节解读
any642: 前向传播函数 y = f(x) + x ，你会发现求导结果是 1 + f'(x)，也就是说无论f'(x)多么的小，因为1的存在，链式求导的结果不会为0，进而解决了梯度消失的问题。为什么用输出结果对x求导呀，不是损失函数对参数求导得到梯度吗？不是很理解
使用 onnxruntime-gpu 进行推理，运行时间久显存逐渐递增无法减少
７５: 这个问题目前无法解决是嘛？
NLP中的Tokenization方法——BPE（Byte-Pair Encoding）
kk_love_c__: 补充词粒度分词的缺点即为什么要使用字词粒度的分词： 1. 减少未登录词问题问题：以词为粒度的分词方法需要维护一个庞大的词汇表，当遇到词汇表中没有的新词或罕见词时，模型可能无法处理，导致未登录词（OOV, Out-of-Vocabulary）问题。解决方案：子词分割可以将未知的词分解为已知的子词或字符单元，使模型能够处理它们。即便是完全未见过的单词，模型也可以通过子词组合来理解其含义。 2. 提高模型的泛化能力问题：以词粒度分割训练的模型很难泛化到新词，尤其是在处理有丰富词缀变化的语言（如阿拉伯语、德语）时。解决方案：子词粒度分割可以更好地捕捉词汇中的通用模式和词缀，使得模型在面对词的不同变形时具有更好的泛化能力。例如，“playing”、“played”和“player”可以被分割为共享的子词，如“play”。 3. 压缩词汇表大小问题：词粒度分割需要维护一个非常大的词汇表，以涵盖不同的单词形态和组合，这会显著增加模型的复杂度和计算需求。解决方案：子词分割方法（如 BPE、WordPiece、SentencePiece）能够通过分解和合并字符序列来减少词汇表的大小，降低计算复杂度。子词分割使模型能够使用较小的词汇表来覆盖更多的语言组合。 4. 适应多语言任务问题：在多语言环境中，每种语言有独立的词汇和语法，词粒度分割难以涵盖所有语言的单词。解决方案：子词分割方法可以使用共享的子词或字符单元表示多种语言，从而支持跨语言的训练和推理。这对于多语言模型（如 mBERT、XLM-R）尤其重要，因为它们需要在不同语言间共享表示。 5. 减少拼写变体的影响问题：在实际应用中，尤其是用户生成内容（如社交媒体和论坛）中，拼写错误或不一致性非常常见。以词粒度进行分割的模型在面对拼写错误或变体时通常无法正确处理。解决方案：子词分割可以将这些变体分解为相似的子词单元，使得模型能够理解和处理拼写变体。例如，“colour”与“color”可以共享子词“colo”。 6. 更细粒度的上下文捕捉问题：在以词为单位的分割中，模型可能无法捕捉单词内部的语义联系。解决方案：子词粒度分割使模型能够关注到词内的细微语义变化，比如“nation”和“national”共享子词“nation”，这有助于模型更好地理解相关词的关系。注：以上内容由GPT生成
解析Bert系列模型的输出结果？结构与形状是什么？如何更好地应用到‘微调下游任务’中？
云从天上来: 会输出对应的部分的，但是在输入阶段，PAD部分对应的默认值会很大，进而在last输出阶段，PAD对应的结果会很小，基本==忽略影响
ChatGLM系列解析（三）—— ChatGLM3 —— 多模态能力CogVLM
优快云-Ada助手: 不知道 Python入门技能树是否可以帮到你：https://edu.youkuaiyun.com/skill/python?utm_source=AI_act_python

大家在看

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。