KV Cache（Key-Value Cache）原理和应用

原创已于 2025-07-11 12:00:04 修改 · 943 阅读

21 ·

CC 4.0 BY-SA版权

文章标签：

#KV Cache

于 2025-07-09 15:00:24 首次发布

深度学习专栏收录该内容

28 篇文章

订阅专栏

文章目录

KV Cache
KV Cache 的应用
QKV的计算

KV Cache

KV Cache（Key-Value Cache）是Transformer模型在自回归生成任务（如文本生成）中优化推理效率的关键技术。它的核心作用是缓存已生成token的Key和Value向量，避免重复计算，从而加速推理过程。以下是详细解析：

1. KV Cache的背景

在Transformer解码过程中，每个新token的生成需要通过自注意力机制关注所有历史token。传统方式下：

每次生成新token时，需重新计算所有历史token的Key（K）和Value（V）向量。
这导致计算复杂度随序列长度线性增长（O(n)），尤其在长序列生成时效率低下。

KV Cache通过缓存历史K/V向量，将重复计算变为查表操作，显著降低计算开销。

2. KV Cache的工作原理

(1) 自注意力机制回顾

自注意力计算公式为：

Attention(Q, K, V) = softmax(QK^T / √d) * V

其中Q（Query）、K（Key）、V（Value）均来自输入的线性变换。在解码时：

Q：当前step的Query向量。
K/V：所有历史token的Key和Value向量。

传统方法每次生成新 token 时需重新计算所有历史 token 的 K 和 V，而 KV Cache 仅需计算当前 token 的 Q，复用缓存的 K 和 V。

(2) KV Cache的结构

缓存形式：维护两个张量key_cache和value_cache，形状为 [batch_size, num_heads, seq_len, head_dim]。
逐step填充：每生成一个token，将其对应的K/V追加到缓存中。
查询方式：计算当前Q与缓存中所有K的相似度，并加权聚合V。

(3) 推理流程示例

以生成文本为例：

Step 0：输入初始token（如<bos>），计算其K/V并存入缓存。
Step 1：生成第一个token，用当前Q与缓存中的K/V计算注意力，更新缓存。
后续Steps：重复上述过程，每次仅计算当前token的Q，并复用缓存中的K/V。

两阶段推理：

预填充阶段（Prefill）：首次计算所有输入 token 的 K 和 V 并缓存（计算密集型，高度并行化）。
解码阶段（Decode）：增量生成时仅计算新 token 的 Q，结合缓存加速（内存密集型）

(4) 优化策略与性能提升

内存优化：
- 量化：将 K/V 从 FP16 转为 INT8/INT4，减少显存占用。
- 稀疏化：仅缓存重要 K/V 对（如 Top-K 注意力头）。
注意力变体：
- MQA（多查询注意力）：所有头共享一组 K/V，显存降至 1/头数。
- GQA（分组查询注意力）：组内共享 K/V（如 LLaMA2 70B 采用）。
分页缓存：
vLLM 的 PagedAttention 将缓存分块管理，支持动态分配和超长序列（如 128K tokens）。

Top-K 注意力头：对每个头，仅保留与当前查询最相关的K个键（即注意力分数最高的K个键），忽略其余键值对。

3. KV Cache的优势

计算效率：避免重复计算历史K/V，时间复杂度从O(n²)降至O(n)。
内存节省：K/V通常为FP16或INT8量化存储，减少显存占用。
低延迟生成：适合实时场景（如对话系统），每step仅需计算单个token的Q。

4. 挑战与优化方向

(1) 内存瓶颈

问题：长序列生成时，缓存占用显存随长度线性增长（如10k token的KV Cache可能占GB级显存）。
解决方案：
- 分组查询注意力（GQA）：共享部分头的K/V，减少缓存体积。
- 稀疏注意力：仅缓存关键token的K/V（如滑动窗口、局部注意力）。
- 量化压缩：使用低精度（如4-bit）存储K/V。

(2) 上下文长度限制

问题：模型训练时的上下文长度限制（如2k token）导致无法处理更长序列。
解决方案：
- 动态扩容缓存：允许缓存超过训练长度（需配合位置编码调整）。
- 外部存储：将冷门K/V转存至CPU内存或磁盘，按需加载。

(3) 并行生成优化

批处理：对多个生成任务共享缓存结构，提升GPU利用率。
前缀缓存：对公共前缀（如提示词）预计算并固定缓存。

5. 实际应用案例

HuggingFace Transformers：通过past_key_values参数实现KV Cache，支持generate()方法的高效推理。
TensorRT-LLM：利用KV Cache优化CUDA内核，实现毫秒级生成延迟。
LLaMA-2：结合GQA与KV Cache，支持32k上下文长度的高效推理。

6. 总结

KV Cache是Transformer推理的基石技术，通过缓存历史K/V向量解决了自回归生成的效率瓶颈。随着模型规模扩大和应用场景复杂化，KV Cache的优化（如压缩、动态管理）仍是提升大模型落地能力的关键方向。

KV Cache 的应用

KV Cache 并非仅用于纯解码器模型（如GPT系列），而是广泛应用于所有需要自回归生成的Transformer模型中，包括解码器模型和编码器-解码器模型的解码阶段。其核心作用是优化自回归生成过程中注意力机制的效率。以下是详细分析：

1. KV Cache的核心需求：自回归生成

KV Cache的本质是为了解决自回归生成（Autoregressive Generation）中的效率问题：

自回归生成的特点：每一步生成新token时，需要基于所有历史token的Key/Value向量计算注意力权重。
KV Cache的作用：缓存历史token的Key/Value向量，避免重复计算，从而加速推理。

因此，只要模型涉及自回归生成过程，无论其整体结构是纯解码器还是编码器-解码器，都需要使用KV Cache。

2. 不同模型结构中的KV Cache应用场景

(1) 纯解码器模型（如GPT、LLaMA）

典型任务：语言建模（如文本续写）、对话生成。
KV Cache的使用：
- 解码器的每一层自注意力模块均需要缓存Key/Value向量。
- 例如，在GPT中，每生成一个token，其对应的Key/Value会被缓存，供后续token的注意力计算复用。

(2) 编码器-解码器模型（如T5、BART、Transformer）

典型任务：机器翻译、摘要生成。
KV Cache的使用：
- 编码器部分：通常不需要KV Cache。因为编码器处理输入序列时，所有token是已知的，Key/Value可以直接计算并一次性使用。
- 解码器部分：需要KV Cache。解码器的自回归生成过程与纯解码器模型类似，每一步需缓存历史token的Key/Value。

(3) 纯编码器模型（如BERT）

典型任务：分类、序列标注。
KV Cache的使用：
- 一般不需要：BERT等编码器模型通常用于处理固定输入（如分类任务），不涉及自回归生成。
- 例外情况：如果BERT被用于生成任务（如文本填充），则可能需要KV Cache，但这类应用较少。

3. 为什么编码器模型通常不使用KV Cache？

输入固定性：编码器模型的输入序列在推理时是完整的（如句子分类任务），不需要逐步生成。
非自回归特性：编码器的目标是建模输入序列的上下文表示，而非预测未来token。
计算模式差异：
- 编码器：一次性计算所有token的Key/Value，并用于自注意力。
- 解码器：逐token生成，需动态维护Key/Value缓存。

4. KV Cache的关键适用条件

KV Cache的适用性取决于以下两个条件：

自回归生成需求：模型需要逐步生成输出序列（如文本、代码）。
注意力机制依赖历史状态：当前token的预测依赖所有已生成token的Key/Value向量。

5. 实际案例

GPT-3：纯解码器模型，KV Cache用于缓存所有已生成token的Key/Value。
T5：编码器-解码器模型，KV Cache仅用于解码器部分。
Bloom：纯解码器模型，KV Cache优化生成效率。
ChatGLM：编码器-解码器结构，解码阶段使用KV Cache。

6. 总结

KV Cache并非特定于纯解码器模型，而是所有自回归生成任务的通用优化技术。其本质是解决“逐步生成”与“注意力计算效率”的矛盾：

适用场景：任何需要逐token生成且依赖历史状态的模型（如解码器或编码器-解码器的解码阶段）。
不适用场景：非自回归任务（如分类、固定序列处理）或输入已知的编码器部分。

通过KV Cache，模型可以在生成长序列时显著降低计算开销，这是大语言模型高效推理的关键技术之一。

QKV的计算

在Transformer模型中，Query（Q）、Key（K）、Value（V） 是通过输入向量的线性变换生成的。它们的计算过程是自注意力机制的核心步骤，具体流程如下：

1. 输入表示

输入序列：假设输入序列为 $X = [x_1, x_2, ..., x_n]$ ，其中每个 $x_i \in \mathbb{R}^{d_{\text{model}}}$ （如词嵌入向量）。
维度定义：
- $d_{\text{model}}$ ：模型的隐藏层维度（如GPT-2中为768）。
- $d_k$ 和 $d_v$ ：分别为Query/Key和Value的维度（通常 $d_k = d_v = d_{\text{model}} / h$ ，其中 $h$ 是多头注意力的头数）。

2. 线性变换生成Q/K/V

通过三个可学习的权重矩阵 $W_Q$ 、 $W_K$ 、 $W_V$ 对输入 $ X $ 进行线性变换：

$\begin{aligned} Q &= X W_Q \quad \text{（Query矩阵）} \\ K &= X W_K \quad \text{（Key矩阵）} \\ V &= X W_V \quad \text{（Value矩阵）} \end{aligned}$

权重矩阵形状：
- $W_Q, W_K \in \mathbb{R}^{d_{\text{model}} \times d_k}$
- $W_V \in \mathbb{R}^{d_{\text{model}} \times d_v}$
输出形状：
- $\in \mathbb{R}^{n \times d_k}$
- $\in \mathbb{R}^{n \times d_v}$

3. 多头注意力（Multi-Head Attention）

在实际应用中，Q/K/V会被分割为多个“头”（Heads）以增强模型的表达能力：

(1) 分割头

将Q/K/V按列分割为 $ h $ 个子矩阵：
$Q_i = Q W_{Q,i}, \quad K_i = K W_{K,i}, \quad V_i = V W_{V,i}$
其中 $i = 1, 2, ..., h$ ，每个子矩阵的维度为 $d_k$ 或 $d_v$ 。

(2) 独立计算注意力

每个头独立计算注意力权重并加权聚合Value：
$\text{Attention}_i = \text{softmax}\left(\frac{Q_i K_i^T}{\sqrt{d_k}}\right) V_i$

(3) 拼接与输出

将所有头的输出拼接并通过最终的线性变换：
$\text{MultiHead}(Q, K, V) = \text{Concat}(\text{Attention}_1, ..., \text{Attention}_h) W_O$
其中 $W_O \in \mathbb{R}^{h d_v \times d_{\text{model}}}$ 。

4. 关键点解析

可学习参数：权重矩阵 $W_Q, W_K, W_V, W_O$ 在训练过程中通过反向传播优化。
维度匹配：Q/K/V的维度设计需保证点积（ $QK^T$ ）的数值稳定性，通常通过缩放因子 $\sqrt{d_k}$ 避免梯度消失。
位置编码：位置信息通常通过加法或拼接方式融入输入 $X$ ，确保模型感知序列顺序。

5. 示例

假设：

输入序列长度 $n = 5$ ，模型维度 $d_{\text{model}} = 512$ ，头数 $h = 8$ 。
则 $d_k = d_v = 512 / 8 = 64$ 。

计算步骤：

输入 $\in \mathbb{R}^{5 \times 512}$ 。
线性变换得到：
- $\in \mathbb{R}^{5 \times 512}$
- 分割为8个头，每个头的 $Q_i \in \mathbb{R}^{5 \times 64}$ 。
每个头计算注意力后，拼接得到 $\text{Concat} \in \mathbb{R}^{5 \times 512}$ 。