一、概念
近来DeepSeek可谓是蜚声中外,而最新的DeepSeek-V3版本模型中,开发团队指出为了实现高效的推理和低成本的训练,DeepSeek-V3采用了Multi-head Latent Attention,即MLA技术。 MLA是一种创新的注意力机制,旨在显著降低推理时的显存占用和计算开销,同时保持模型性能,在论文《DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model》中被提出,本文将详细介绍相关概念。

二、核心原理
MLA相较于传统多头注意力机制MHA的优化主要有以下几个方面:
1、低秩KV联合压缩机制
传统MHA需要保存完整的Key和Value缓存,从而很大程度上制约了batch size的扩大和序列长度的增加。MLA 的核心思想则是通过低秩分解对注意力中的键(Key)和值(Value)进行联合压缩,以此来减小缓存占用:
其中,是注意力层中第 t 个token的注意力输入,
是keys和values对应的压缩后的latent向量,
是下投影矩阵,
则是keys和values的上投影矩阵。在推理的过程中,MLA只需要缓存
。此外,为了减少训练时激活函数的memory,MLA对于queries也进行了低秩压缩(当然这并不会对KV缓存造成影响):
其中,是queries对应的latent向量,

最低0.47元/天 解锁文章
2804

被折叠的 条评论
为什么被折叠?



