KV-Cache技术小结（MHA,GQA,MQA,MLA)

莫叶何竹

已于 2025-02-24 07:48:54 修改

阅读量316

点赞数 4

文章标签： kv-cache 莫叶何竹

于 2025-02-22 12:19:04 首次发布

本文链接：https://blog.youkuaiyun.com/weixin_40779727/article/details/145792996

版权

个人博客位置： http://myhz0606.com/article/kv-cache

1 背景

KV-cache技术是目前LLM，VLLM等自回归模型常用的避免冗余计算的手段。但引入该技术需要额外的存储成本。原生的kv-cache所需的存储成本与生成的token长度成正比，是目前长文本生成的主要瓶颈之一。目前针对如何降低KV-cache的存储成本激起大量研究者广泛关注。GQA (Group Query Attention)，MQA (Multi Query Attention)，MLA (Multi-Head Latent Attention)是目前常用的方法。本文将从经典的casual attention出发，阐述kv-cache的必要性，及目前常见优化kv-cache的手段。

TL,DR

image from deepseekv2 tech report
不同attention方法 KV cache的存储单元数量

	KV-cache	存储单元数量
Casual Attention	$K_{\leq t},V_{\leq t}$	$2 t d$
`MHA`	$\{K_{\leq t;i} ,V_{\leq t;i} \|i=1,2,\cdots ,n_h\}$	$2 t n_hd_h$
`GQA`	$\{K_{\leq t;g_i} ,V_{\leq t;g_i} \|i=1,2,\cdots ,n_g\}$	$2 t n_gd_h$
`MQA`	$\{K_{\leq t;g_i} ,V_{\leq t;g_i} \|g_i=1\}$	$2 t d_h$
`MLA`	$C^{kv}_{\leq t} ,K^R_{\leq t}$	$t (d_c + d_h^R)$

2 经典Casual-Attention的KV-Cache工作机制

假定当前层attention的输入为 $X=[x_1;x_2;\cdots ;x_T], X\in \mathbb{R} ^ {T\times d}$ , $T$ 为sequence的长度。通过 $W_q,W_k,W_v$ 3个线性层得到query ，key，value。

在这里插入图片描述

$Q=\begin{aligned} &\begin{bmatrix}q_1 \\ q_2 \\ \vdots \\ q_T \end{bmatrix}， K=\begin{bmatrix}k_1 \\ k_2 \\ \vdots \\ k_T \end{bmatrix}， V=\begin{bmatrix}v_1 \\ v_2 \\ \vdots \\ v_T \end{bmatrix} \\ & q_t,k_t,v_t \in \mathbb{R}^{1\times d} \end{aligned} \tag{1}$

随后通过标准的casual attention机制，得到输出 $Y$ 。

在训练阶段，为了通过teaching forcing技巧进行并行化训练，引入一个causal mask $M$ ，来保证 $t$ 位置的token只看的到 $\leq t$ 的token。这个阶段没有kv-cache。

在这里插入图片描述
$\begin{bmatrix}y_1 \\ y_2 \\ \vdots \\ y_T \end{bmatrix} = \mathrm{softmax} \bigg ( \frac{\begin{bmatrix}q_1 \\ q_2 \\ \vdots \\ q_T \end{bmatrix}\begin{bmatrix}k_1^T , k_2^T , \cdots , k_T^T \end{bmatrix}}{\sqrt{d}} + M\bigg ) \begin{bmatrix}v_1 \\ v_2 \\ \vdots \\ v_T \end{bmatrix} \tag{2}$

**在生成阶段。**token是按序生成，在模型内部体现在 $\begin{bmatrix}y_1 ; y_2 ; \cdots ; y_T \end{bmatrix}$ 的每一行是依次输出的。

对于第一个token的生成只依赖 $y_1$ ,第二个token的生成只依赖 $y_2$ ，依次类推。

对每一个 $y_t$ ，attention的计算如下

在这里插入图片描述

$\begin{aligned} y_t &= \mathrm{softmax} \bigg ( \frac{q_t\begin{bmatrix}k_1^T , \cdots , k_t^T \end{bmatrix}}{\sqrt{d}} \bigg ) \begin{bmatrix}v_1 \\ \vdots \\ v_t \end{bmatrix} \\ & = \mathrm{softmax} \bigg ( \frac{q_t \boxed{K^T_{\leq t}}}{\sqrt{d}} \bigg ) \boxed{V_{\leq t}} \\ & = \sum_{i=1}^{t} \mathrm{softmax} \bigg ( \frac{q_t k_i^T}{\sqrt{d}} \bigg ) v_i\\ \end{aligned} \tag{3}$

如果考虑位置编码，上式写改写为, $\mathcal{P}_i(\cdot)$ 表示位置编码函数

$y_t = \sum_{i=1}^{t} \mathrm{softmax} \bigg ( \frac{\mathcal{P}_t(q_t)\mathcal{P}_i (k_i^T)}{\sqrt{d}} \bigg ) v_i \tag{4}$

从上面的计算流程不难看出， $y_t$ 的生成只依赖当前 $t$ 位置的query,依赖前面所有位置 $\leq t$ 的key和value。为了得到 $K_{\leq t},$ $V_{\leq t}$ ,最naive的做法是：生成 $t$ 位置的token时，将 $X_{\leq t}$ 作为Attention的输入，以此保证 $K_{\leq t},V_{\leq t}$ 能够被正确计算。Naive的做法没有kv-cache。

但从上面的计算流程我们不难看出， $y_t$ 需要的 $K_{\leq t},V_{\leq t}$ 中 $K_{\leq t -1},V_{\leq t-1}$ 已经在 $y_{t-1}$ 的计算中被计算。因此可以能把 $y_{t-1}$ 算好的 $K_{\leq t -1},V_{\leq t-1}$ 保存起来，在 $t$ 位置只需计算 $k_t,v_t$ ，再与前面的 $K_{\leq t -1},V_{\leq t-1}$ 进行拼接就可以得到 $K_{\leq t},V_{\leq t}$ 。这样大大减少了冗余的计算量。这就是kv-cache的核心motivation。（公式中被“框起来”的部分是可以cache的。）

用kv-cache的生成思路，

生成第 $1$ 个token时，此时attention层输入 $x_1$ ，输出 $y_1, (k_1, v_1)$ 。 $k_1,v_1)$ 是缓存的kv-cache
生成第 $2$ 个token时，此时attention层输入 $x_2,(k_1, v_1)$ ，输出 $y_2, (K_{\leq 2}, V_{\leq2})$
…
生成第 $t$ 个token时，此时attention层输入 $x_t,(K_{\leq t-1}, V_{\leq t-1})$ ，输出 $y_t, (K_{\leq t}, V_{\leq t})$
…

kv-cache能够显著降低attention的计算量，但随着生成token的增多，kv-cache所需的存储成本呈线性增加，导致GPU的显存成为生成长度的瓶颈。

3 Multi-Head Attention（`MHA`） KV-Cache工作机制

paper: https://arxiv.org/pdf/1706.03762

MHA是上面的一个推广。假定MHA的输入为 $X=[x_1;x_2;\cdots ;x_T], X\in \mathbb{R} ^ {T\times d}$ , $T$ 为sequence的长度。假定有 $n_h$ 个head，每个head投影的维度为 $d_h=\frac{d}{n_h}$
在这里插入图片描述

通过线性层的矩阵计算，得到不同head下的 $Q_i,K_i,V_i,i\in \{1,\cdots,n_h\}$

$q_{1;i}$ 表示head $i$ query矩阵在序列位置为 $1$ 处的向量，其他符号记法类似。

在生成阶段每一个head经过attention计算后的 $t$ 位置的输出 $y_{t;i}$ 如下（ $y_{1;i}，y_{2;i}， \cdots y_{T;i}$ 依序生成）,

在这里插入图片描述

$\begin{aligned} y_{t;i} &= \mathrm{softmax} \bigg ( \frac{q_{t;i}\begin{bmatrix}k_{1;i}^T , \cdots , k_{t;i}^T \end{bmatrix}}{\sqrt{d}} \bigg ) \begin{bmatrix}v_{1;i} \\ \vdots \\ v_{t;i} \end{bmatrix} \\ & = \mathrm{softmax} \bigg ( \frac{q_{t;i} \boxed{K_{\leq t;i}^T} }{\sqrt{d}} \bigg ) \boxed{V_{\leq t;i}} \\ \end{aligned} \tag{5}$

循环Attention head $i=1,\cdots,n_h$ ,可以计算所有head $t$ 时刻的输出 $\{y_{t;1}, \cdots ,y_{t;n_h}\}$ 最后将不同head的输出 $y_{t;i}$ 进行拼接，得到最终的输出

$y_{t} = \mathrm{Cat}([y_{t;1}, y_{t;2}, \cdots ,y_{t;n_h}], \mathrm{dim}=1) \\y_t \in \mathbb{R}^{1 \times d} \tag{6}$

对于MHA而言， $y_t$ 的计算缓存的kv-cache为 $\{K_{\leq t;i} ,V_{\leq t;i} |i=1,2,\cdots ,n_h\}$

4 Group Query Attention（`GQA`） KV-Cache工作机制

paper: https://arxiv.org/pdf/2305.13245

GQA的attention计算机制与MHA一致。有所区别的是，GQA为了降低KV-Cache的存储，将attention的head分为了 $n_g$ 组，同一组共享kv-cache。
在这里插入图片描述

$g_i = \lceil (\frac{i}{n_g} ) \rceil\tag{7}$

$\lceil \cdot \rceil$ 是向上取整符号。若 $n_g = 4$ ,那么 $\in \{ 1,2,3,4 \}$ 共享 $g_i = 1$ 这个group的key，value。

同样，在生成阶段 $y_{1;i}，y_{2;i}， \cdots y_{T;i}$ 依序生成。每一个head经过attention计算后的 $t$ 位置的输出 $y_{t;i}$ 如下,

$\begin{aligned} y_{t;i} &= \mathrm{softmax} \bigg ( \frac{q_{t;i}\begin{bmatrix}k_{1;g_i}^T , \cdots , k_{t;g_i}^T \end{bmatrix}}{\sqrt{d}} \bigg ) \begin{bmatrix}v_{1;g_i} \\ \vdots \\ v_{t;g_i} \end{bmatrix} \\ & = \mathrm{softmax} \bigg ( \frac{q_{t;i} \boxed{K_{\leq t;g_i}^T} }{\sqrt{d}} \bigg ) \boxed{ V_{\leq t;g_i} } \\ \end{aligned} \tag{8}$

Loop Attention head $i=1,\cdots,n_h$ ,可以计算所有head $t$ 时刻的输出 $\{y_{t;1}, \cdots ,y_{t;n_h}\}$ 最后将不同head的输出 $y_{t;i}$ 进行拼接，得到最终的输出

$y_{t} = \mathrm{Cat}([y_{t;1}, y_{t;2}, \cdots ,y_{t;n_h}], \mathrm{dim}=1) \\y_t \in \mathbb{R}^{1 \times d} \tag{9}$

对于GQA而言， $y_t$ 的计算缓存的kv-cache为 $\{K_{\leq t;g_i} ,V_{\leq t;g_i} |i=1,2,\cdots ,n_g\}$ ,相比标准的MHA，KV-cache降低了 $\frac{n_h}{n_g}$ 倍

5 Multi Query Attention（`MQA`） KV-Cache工作机制

paper: https://arxiv.org/pdf/1911.02150

MQA是GQA的一个特例。当 $n_g=1$ 时，即所有head的query共享同一组key, value，此时的GQA成为MQA。

对于MQA而言， $y_t$ 的计算缓存的kv-cache为 $\{K_{\leq t;g_i} ,V_{\leq t;g_i} |g_i=1\}$ ,相比标准的MHA，KV-cache降低了 $n_h$ 倍。

6 Multi-Head Latent Attention (MLA)的工作机制

MLA是deepseek提出的一项针对kv-cache的优化。

paper: https://arxiv.org/abs/2405.04434

（一）先抛开位置编码

假定MLA的输入为 $X=[x_1;x_2;\cdots ;x_T], X\in \mathbb{R} ^ {T\times d}$ , $T$ 为sequence的长度。假定有 $n_h$ 个head，每个head投影的维度为 $\frac{d}{n_h}$ 。初步来看未引入位置编码的MLA像是引入了一个低秩分解矩阵(类似LoRA的做法)的MHA

在这里插入图片描述

head $i$ 的Q,K,V计算过程如下

$\underbrace{ \begin{bmatrix} Q_i \\K_i\\V_i \end{bmatrix} =\begin{bmatrix} XW_{q;i} \\ XW_{k;i}\\ XW_{v;i} \end{bmatrix} }_{MHA} \rightarrow \underbrace{ \begin{bmatrix} Q_i \\K_i\\V_i \end{bmatrix}= \begin{bmatrix} XW_{q/A} W_{q/B;i}\\ XW_{kv/A}W_{k/B;i}\\ XW_{kv/A}W_{v/B;i} \end{bmatrix}= \begin{bmatrix} C^{q}W_{q/B;i}\\ C^{kv}W_{k/B;i}\\ C^{kv}W_{v/B;i} \end{bmatrix} }_{MLA} \tag{10}$

矩阵维度变换说明

	dimension
$W_{kv/A}$ （下标kv表示key-value的compress latent编码投影矩阵，`/A`类比LORA的A矩阵)	$\mathbb{R} ^{d \times d_c}$
$W_{k/B;i},W_{v/B;i}$ （`/B` 类比LORA的B矩阵， $;i$ )表示attention第 $i$ 个head	$\mathbb{R} ^{d_c \times \frac{d}{n_h}}$
$W_{q/A;i}$	$\mathbb{R} ^{ d \times d'_c}$
$W_{q/B;i}$	$\mathbb{R} ^{\frac{d}{n_h} \times d_c}$
$C^q$ （上标q表示 query的compress latent code）	$\mathbb{R} ^ {T\times d_c'}$
$C^{kv}$ （表示 key-value的compress latent code）	$\mathbb{R} ^ {T\times d_c}$

在生成阶段,每一个head经过attention计算后的 $t$ 位置的输出 $y_{t;i}$ 如下（ $y_{1;i}，y_{2;i}， \cdots y_{T;i}$ 依序生成)

$\begin{align*} y_{t;i} &= \ \mathrm{softmax} \bigg ( \frac{q_{t;i} K^T_{\leq t;i}}{\sqrt{d}} \bigg ) V_{\leq t;i} \tag{9} \\ & = \mathrm{softmax} \bigg ( \frac{q_{t;i} W_{k/B;i}^{T}(\boxed{C^{kv}_{\leq t}})^T}{\sqrt{d}} \bigg ) \boxed{C^{kv}_{\leq t}}W_{v/B;i}\tag{10} \end{align*}$

式（9）和MHA的generate阶段的形式相同，当然可以通过缓存 $\{K_{\leq t;i} ,V_{\leq t;i} |i=1,2,\cdots ,n_h\}$ 实现kv-cache。

但MLA提供了一个新的方法（式10），只需要缓存 $C^{kv}_{\leq t} \in \mathbb{R}^{t \times d_c}$ 即可，相比原始方法的kv-cache的存储单元数量从 $t\times \frac{d}{n_h} \times n_h \times 2 = 2dt$ 降低到 $t\times d_c$ 。但这个方法需要引入两个矩阵乘法的计算量。因为 $d_c$ 不大，引入的计算量是可以接受的。（还有一种更为巧妙的方法能规避计算量增加的问题，在（二）中介绍）

（二）引入位置编码的MLA

这个形式也是deepseek论文中提出的形式。有了上面的基础，再理解就很简单了。同样假定MLA的输入为 $X=[x_1;x_2;\cdots ;x_T], X\in \mathbb{R} ^ {T\times d}$ , $T$ 为sequence的长度。假定有 $n_h$ 个head，每个head投影的维度为 $d_h=\frac{d}{n_h}$

在这里插入图片描述

head $i$ 的Q,K,V计算过程如下

$\begin{aligned} \begin{bmatrix} Q_i \\K_i\\V_i \end{bmatrix} & \Rightarrow \underbrace{\begin{bmatrix} XW_{q;i} \\ XW_{k;i}\\ XW_{v;i} \end{bmatrix} }_{MHA} \Rightarrow \underbrace{ \begin{bmatrix} XW_{q/A} W_{q/B;i}\\ XW_{kv/A}W_{k/B;i}\\ XW_{kv/A}W_{v/B;i} \end{bmatrix} = \begin{bmatrix} C^{q}W_{q/B;i}\\ C^{kv}W_{k/B;i}\\ C^{kv}W_{v/B;i} \end{bmatrix} }_{\text{MLA, no pos embedding}} \\ & \Rightarrow \underbrace{ \begin{bmatrix} Q_i^C,Q_i^R \\K_i^C, K^R\\V_i \end{bmatrix} = \begin{bmatrix} C^qW_{q^C/B;i},\mathrm{ROPE} (C^qW_{q^R/B;i}) \\ C^{kv}W_{k^C/B;i}, \mathrm{ROPE} (XW_{k^R})\\ C^{kv}W_{v/B;i} \end{bmatrix} }_{\text{MLA with pos embedding}} \end{aligned} \tag{11}$

矩阵维度变换说明

	dimension
$W_{kv/A}$ (下标kv表示key-value的compress latent编码投影矩阵，`/A`类比LORA的A矩阵)	$\mathbb{R} ^{d \times d_c}$
$W_{k^C/B;i},W_{v/B;i}$ (`/B` 类比LORA的B矩阵， $;i$ )表示attention第 $i$ 个head	$\mathbb{R} ^{d_c \times d_h}$
$W_{k^R}$	$\mathbb{R} ^{d \times d_h^R}$
$W_{q/A;i}$	$\mathbb{R} ^{d \times d'_c}$
$W_{q^C/B;i}$	$\mathbb{R} ^{d'_c \times d_h}$
$W_{q^R/B;i}$	$\mathbb{R} ^{d_c' \times d^R_h }$
$C^q$ （上标q表示 query的compress latent code）	$\mathbb{R} ^ {T\times d_c'}$
$C^{kv}$ （表示 key-value的compress latent code）	$\mathbb{R} ^ {T\times d_c}$
$Q_{i}^{C}$ （上标C表示compression的首字母“C”）	$\mathbb{R}^{T\times d_h}$ (不含位置编码的query)
$Q_{i}^{R}$ （上标R是RoPE的`R`）	$\mathbb{R}^{T\times d_h^R}$ (包含位置编码的query)

在这里插入图片描述

$\begin{align*} y_{t;i} &= \mathrm{softmax} \bigg ( \frac{ \begin{bmatrix} q^C_{t;i}, q^R_{t;i} \end{bmatrix} \begin{bmatrix} (k^C_{1;_i})^T , \cdots , (k^C_{t;i})^T \\ (k^R_{1})^T , \cdots , (k^R_{t})^T \end{bmatrix} }{\sqrt{d_h+d_h^R}} \bigg ) V_{\leq t;i} \tag{12} \\ &= \mathrm{softmax} \bigg ( \frac{ \begin{bmatrix} q^C_{t;i}, q^R_{t;i} \end{bmatrix} \begin{bmatrix} (K^C_{\leq t;i})^T \\ (K^R_{\leq t})^T \end{bmatrix} }{\sqrt{d_h+d_h^R}} \bigg ) V_{\leq t;i} \tag{13} \\ & = \mathrm{softmax} \bigg ( \frac{ \begin{bmatrix} q^C_{t;i}, q^R_{t;i} \end{bmatrix} \begin{bmatrix} ( \boxed{ C^{kv}_{\le t}} W_{k^C/B;i})^T \\ (\boxed{ K^R_{\leq t}})^T \end{bmatrix} }{\sqrt{d_h+d_h^R}} \bigg ) \boxed {C^{kv}_{\leq t} } W_{v/B;i}\tag{14} \end{align*}$

从式14可见，加了位置编码的MLA相比无位置编码的情形多缓存了一个 $K^R_{\leq t}$ 。这里需要注意，对于所有attention head $K^R_{\leq t}$ 是共享的（类似MQA）。

此时KV-cache需要缓存 $\{C^{kv}_{\leq t}, K^R_{\leq t}\}$ 的存储单元数量为 $t (d_c + d_h^R)$

**与不加位置编码的情形一致，这个方法推理时需要引入两个矩阵乘法的计算量， $C^{kv}_{\le t} W_{k^C/B;i}$ 和 $C^{kv}_{\leq t} W_{v/B;i}$ 。**不妨对式（14）再次进行变形，可以看到MLA 又一巧妙的设计

$\begin{align*} y_{t;i} &= \mathrm{softmax} \bigg ( \frac{ \begin{bmatrix} q^C_{t;i}, q^R_{t;i} \end{bmatrix} \begin{bmatrix} ( \boxed{ C^{kv}_{\le t}} W_{k^C/B;i})^T \\ (\boxed{ K^R_{\leq t}})^T \end{bmatrix} }{\sqrt{d_h+d_h^R}} \bigg ) \boxed {C^{kv}_{\leq t} } W_{v/B;i}\\ &= \mathrm{softmax} \bigg ( \frac{ q^C_{t;i}(W_{k^C/B;i})^T(\boxed{ C^{kv}_{\le t}})^T+ q^R_{t;i} ( \boxed{K^R_{\leq t}})^T }{\sqrt{d_h+d_h^R}} \bigg ) \boxed {C^{kv}_{\leq t} } W_{v/B;i} \tag{15}\\ \end{align*}$

从式（15）可见，在推理时， $W_{q^C/B;i}(W_{k^C/B;i})^T$ 可以预先合并为1个矩阵，同理 $W_{v/B;i}$ 也可以和随后的线性层的权重进行合并。但计算量的降低主要与矩阵乘法的计算顺序改变导致：

计算次序	element-level乘法执行次数
$\underbrace{q^C_{t;i}}_{\textcircled{2}}\underbrace{( C^{kv}_{\le t} W_{k^C/B;i})^T}_{\textcircled{1}}$	$\underbrace{t \times d_c \times d_h}_{\textcircled{1}} + \underbrace{t \times d_h \times 1}_{\textcircled{2}} = (d_c + 1)td_h$
$\underbrace{q^C_{t;i}(W_{k^C/B;i})^T}_{\textcircled{1}}\underbrace{( C^{kv}_{\le t})^T }_{\textcircled{2}}$	$\underbrace{1 \times d_h \times d_c}_{\textcircled{1}} + \underbrace{1 \times d_c \times t}_{\textcircled{2}} = (d_h + t)d_c$

维度说明： $q^C_{t;i} \in \mathbb{R}^{1 \times d_h}, C^{kv}_{\leq t} \in \mathbb{R}^ {t \times d_c}, W_{k^C/B;i} \in \mathbb{R}^{d_c \times d_h}$

7 小结

文本详细介绍了kv-cache原理，及降低kv-cache存储成本目前常用的MQA，GQA，MLA方法。如有疏漏之处，敬请指出。

image from deepseekv2 tech report
不同attention方法 KV cache的存储单元数量

	KV-cache	存储单元数量
Casual Attention	$K_{\leq t},V_{\leq t}$	$2 t d$
`MHA`	$\{K_{\leq t;i} ,V_{\leq t;i} \|i=1,2,\cdots ,n_h\}$	$2 t n_hd_h$
`GQA`	$\{K_{\leq t;g_i} ,V_{\leq t;g_i} \|i=1,2,\cdots ,n_g\}$	$2 t n_gd_h$
`MQA`	$\{K_{\leq t;g_i} ,V_{\leq t;g_i} \|g_i=1\}$	$2 t d_h$
`MLA`	$C^{kv}_{\leq t} ,K^R_{\leq t}$	$t (d_c + d_h^R)$