LLM中的K-V cache

icewithzero

已于 2024-01-18 16:56:07 修改

阅读量1.7k

点赞数 36

文章标签： python 深度学习机器学习 llama

于 2024-01-17 20:45:01 首次发布

本文链接：https://blog.youkuaiyun.com/qq_42296251/article/details/135659424

版权

本文介绍了K-Vcache技术，它是基于因果注意力的Transformer内存优化策略，通过缓存历史token的K-V值来减少计算量。文章以通俗方式分析了这一技术，并提到了与之相关的概念如分组查询注意力和旋转嵌入。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

K-V cache的原理的学习笔记

首先要明确的一点是K-V cache建立在causal attention的基础之上，即第 $t$ 个token只会与第 $t - i$ 个tokens计算 $Q @ K @ V$ ,这就会出现下图的情况在这里插入图片描述
上述过程用公式表示为：

在这里插入图片描述

可以看到，当新加入token后，其计算结果只和当前token的 $Q K V$ 、历史token的 $K V$ 有关，因此通过将历史token的 $K V$ 保存下来，可以有效降低计算量。
如下图所示：
在这里插入图片描述

参考文献：[1]Transformer推理性能优化技术很重要的一个就是K V cache，能否通俗分析，可以结合代码? - 看图学的回答 - 知乎
 [2]理解 Llama2：KV 缓存、分组查询注意力、旋转嵌入等

关注博主即可阅读全文

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

icewithzero

关注关注

36
点赞
踩
25

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

LLM - GPT(Decoder Only) 类模型的 KV Cache 公式与原理教程

AGI

08-27

1688

在 GPT 类模型中，KV Cache (键值缓存) 是用于优化推理效率的重要技术，基本思想是通过缓存先前计算的键(Key) 和值(Value)，避免在推理过程中，重复计算 Mask 的注意力(Attention) 矩阵，从而加速生成过程。

LLM之Colossal-LLaMA-2：源码解读(init_tokenizer.py文件)实现基于源词表的扩展、(init_model.py文件)实现过计算均值扩展模型、(prepare_pretr

头部AI社区如有邀博主AI主题演讲请私信—心比天高，仗剑走天涯，保持热爱，奔赴向梦想！低调，专注，谦虚，自律，反思，成长，还算比较正能量的博主，公益免费传播…内心特别想在AI界做出一些可以推进历史进程影响力的技术(兴趣使然，有点小情怀，也有点使命感呀

09-27

1636

LLM之Colossal-LLaMA-2：源码解读(init_tokenizer.py文件)实现基于源词表的扩展(中文标记的新词汇)进而实现持续预训练、(init_model.py文件)实现过计算均值来扩展模型的嵌入层以适应新的词汇表，然后保存扩展后的模型、(prepare_pretrain_dataset.py文件)将原始数据集进行处理和切片并保存为JSONL格式和 Arrow格式目录一、源码解读(init_tokenizer.py文件)实现基于源词表的扩展(中文标记的新词汇)进而实现持续预训

参与评论您还未登录，请先登录后发表或查看评论

kvcache原理、参数量、代码详解

热门推荐

taoqick的专栏

04-08

1万+

kvcache一句话来说就是把。训练的时候不需要保存。推理解码生成时都是自回归auto-regressive的方式，也就是每次生成一个token，都要依赖之前token的结果。如果没生成一个token的时候乘以W_K,W_V这俩参数矩阵要对所有token都算一遍，代价非常大，所以缓存起来就叫kvcache。举个例子，假如prompt=“The largest city of China is”，输入是6个tokens，返回是"Shang Hai"这两个tokens。

LLM - Generate With KV-Cache 图解与实践 By GPT-2

BITDDD小栈

05-13

2488

LLM Generate With KV-Cache 图解与实践 By GPT-2

【LLM】KV Cache

2665000101@qq.com

03-09

1019

KV Cache通过缓存中间结果，优化了Transformer模型的推理过程，提升了生成任务的效率，尤其在处理长序列时效果显著。KV Cache主要用于自注意力（Self-Attention）中，而不是交叉注意力（Cross-Attention）KV Cache 主要用于自注意力，而不是交叉注意力。在自注意力中，KV Cache 通过缓存之前 token 的 K 和 V，避免重复计算，从而提高推理效率。在交叉注意力中，由于编码器的输出是固定的，KV Cache 的优化作用较小。

【LLM】大模型推理加速 KV-Cache

kaka03200的博客

03-25

2092

是QKV的投影矩阵，H是多头自注意力中head的个数。KV Cache的总大小是2nHD，其中n是token数量，H是head数量，D是。在了解KVCache之前，我们需要知道Transformer类大模型的推理过程。最后一种方式也就是现在常用的PageAttention，也是vllm的核心技术。也是可行的，但很容易发现一个问题，Token Embedding中。，将它们保存下来，就得到了K Cache和V Cache。这部分的值是不需要重新计算的。在每次计算过程中得到的中间值。的数据，再加上新来的。

LLM推理优化——KV Cache篇（百倍提速）

qq_36553572的博客

07-30

1588

KV Cache本质上是空间换时间的技术。与计算机组成原理中的cache不同，它不涉及访存优化。不知道大家在用LLM的时候，有没有注意到一个问题：我们在输入我们的问题之后，需要等待一段漫长的时间才能看到第一个字符的响应，而等待第一个之后，后续的响应却非常之快，这就是使用了KV Cache加速后的带来的优势。

大模型(LLM)推理加速之KV Cache技术

Cheny1m的博客

01-22

3187

在学习Key-Value Cache(kv cache)，读者需要熟悉Transformer架构，最好能够懂得。本文不会再对Transformer架构做赘述。

LLM - 配置 GraphRAG + Ollama 服务构建中文知识图谱教程(踩坑记录)

AGI

10-09

3789

GraphRAG 结合知识图谱(Knowledge Graph) 和大语言模型(LLM)，通过使用图关系发现和验证信息，从而增强语言模型的上下文理解能力，生成更准确、更连贯的回答。GraphRAG 特别适合处理需要复杂推理和深层语义理解的查询。

LLM - 大模型的参数量/计算量/激活值/KV Cache 的详细分析教程

AGI

03-31

263

在大模型中，参数量、计算量、激活值以及 KV Cache 是影响模型性能和资源消耗的关键因素。参数量通常与模型的复杂度成正比。计算量则与模型的前向和反向传播过程密切相关，Transformer 模型的计算量在使用 KV Cache 后会显著减少，因为 KV Cache 可以避免重复计算已经处理过的序列。激活值的显存占用在推理阶段尤为重要，其大小取决于序列长度、批次大小、隐藏层维度等因素，通常会随着批次大小的增加而显著增长。

LLM - 使用 LLaMA-Factory 微调大模型环境配置与训练推理教程 (1)

AGI

11-07

1626

LLaMA-Factory 是开源的大模型微调框架，用于高效地微调和部署大语言模型，支持多种预训练模型和微调算法，提供完整的工具和接口，对于预训练的模型进行定制化的训练和调整，以适应特定的应用场景。

KV Cache 技术分析

张伟的专栏

04-19

3166

LLM（大型语言模型）中的 Attention 机制中的 KV Cache（键值缓存）主要作用是存储键值对，以避免在每次生成 token 时重新计算键值向量，从而减少计算量和提高效率。利用预先计算好的 K 值和 V 值，可以节省大量计算时间，尽管这会占用一定的存储空间。随着模型规模的增大和数据量的增加，LLM 的窗口长度也在不断增大，因此就出现一组主要矛盾，即：对不断增长的 LLM 的窗口长度的需要与有限的 GPU 显存之间的矛盾。

AI大模型企业应用实战：Prompt让LLM理解知识

2401_84204413的博客

06-25

2575

GPTCache：LLM 应用必备的【省省省】利器

ZILLIZ

04-11

946

GPTCache 中的相似性评估模块从 Cache Storage 和 Vector Store 中收集数据，并使用各种策略来确定输入请求与来自 Vector Store 的请求之间的相似性，该模块用于确定某一请求是否与缓存匹配。所以，我们决定将其开源，为更多用户提供便利。GPTCache 是 LLM 语义缓存层（caching layer），它采用语义缓存（semantic cache）[1]技术，能够存储 LLM 响应，从而显著减少检索数据所需的时间、降低 API 调用开销、提升应用可扩展性。

AI菜鸟向前飞 — LLM简介

2401_82469710的博客

05-11

1559

AI菜鸟向前飞 — LLM简介

LLM推理加速为什么要用KV Cache - 直接版本

强化学习曾小健

12-02

1549

KV Cache 是大语言模型推理中不可或缺的加速机制，通过缓存Key和Value向量，避免了重复计算，从而显著提升了推理效率和速度。这对于需要处理长上下文或实时生成的任务至关重要，是大语言模型在实际应用中实现高效推理的核心技术之一。详细说说LLM推理中的KV cache实现过程和原理。

[论文笔记]vLLM: Efficient Memory Management for Large Language Model Serving with PagedAttention

日积月累，天道酬勤

08-10

1798

⭐ 作者提出了PagedAttention，受到传统虚拟内存和操作系统中分页技术启发的注意力算法。并在此基础上构建了vLLMLLM服务系统。定义KV块的概念，对应操作系统中的分页，一个KV块默认包含16个K/V向量，通过动态分配的机制最多只浪费了15个向量对应的内存，实现逻辑块和物理块的分离，物理上虽然不连续但逻辑上是连续的，通过块表维护逻辑块和物理块之间的映射。同时通过引用计数和写时复制的技术来支持物理块共享，进一步提高了空间的利用率，从而提高了批处理大小，增大了吞吐量。

掌握LLM缓存策略：提高性能的秘密武器

adfyvatbia的博客

10-28

500

通过对LLM调用结果进行缓存，可以显著提高系统的性能。结合使用不同的缓存策略，根据应用场景选择合适的缓存方案是优化系统的关键。

大模型推理加速：看图学KV Cache

luoganttcc的博客

12-26

642

这是因为Decoder有Causal Mask，在推理的时候前面已经生成的字符不需要与后面的字符产生attention，从而使得前面已经计算的K和V可以缓存起来。KV Cache是Transformer标配的推理加速功能，transformer官方use_cache这个参数默认是True，但是它。所以说叫KV Cache好像有点不太对，因为KV本来就需要全程计算，可能叫增量KV计算会更好理解。我们先看一下不使用KV Cache的推理过程。下面4张图展示了使用KV Cache和不使用的对比。

大模型kv cache实现

最新发布

04-12

<think>嗯，用户问的是大模型中KV Cache的实现方式，需要详细解释。首先，我得回忆一下自己对KV Cache的理解。KV Cache主要是在Transformer的自注意力机制中用来缓存键（Key）和值（Value）的，这样可以避免在生成每个token时重新计算之前的KV，节省计算资源，提高推理速度。不过具体实现细节可能比较复杂，需要分步骤说明。首先，用户可能需要知道KV Cache的基本原理，比如预填充阶段和解码阶段的区别。预填充阶段处理整个prompt序列，生成对应的KV缓存，而解码阶段逐步生成新token，并更新缓存。这部分需要结合引用里的内容，比如引用[1]提到的两个阶段，还有引用[3]提到的更新KV Cache的过程。然后，实现细节可能包括数据结构设计，比如如何存储KV缓存。通常是用张量来保存，每个层都有自己的KV缓存。引用[3]提到形状的变化，比如batch_size、num_heads、seq_len和维度，这部分需要详细说明。另外，内存管理也很重要，用户可能关心内存优化方法，比如引用[2]提到的量化技术，或者动态缓存和分块存储。还有计算流程，比如在预填充阶段并行计算，解码阶段增量更新，引用[4]里的预填充阶段解释可能需要提到。还要注意实现中的关键技术点，比如注意力掩码调整，防止越界访问，以及内存预分配策略。可能用户还会关心不同框架的具体实现差异，比如Hugging Face和vLLM的不同处理方式，这可以引用相关例子说明。最后，优化措施也是重点，比如量化、分块、压缩，这些在引用里都有提到，需要整合到回答中。同时，生成相关问题的时候，要围绕实现方式、优化、应用场景等展开，确保问题有针对性。总结一下，回答的结构应该是先介绍KV Cache的作用和原理，再分阶段详细说明预填充和解码，接着讲具体实现中的数据结构、内存管理、计算流程，关键技术点，不同框架的实现，优化措施，最后给出相关问题。需要确保引用正确的文献，比如引用[1][3][4]来支持各个部分的内容，同时保持语言的中文和格式要求。</think>### 大模型 KV Cache 实现方法详解 KV Cache 是大型语言模型（LLM）推理优化的核心技术，通过缓存历史 token 的键（Key）和值（Value）张量，避免重复计算，提升生成效率。以下是其实现方式的详细拆解： --- #### 一、KV Cache 的核心原理 1. **自注意力机制中的关键角色** Transformer 的自注意力计算公式为： $$ \text{Attention}(Q,K,V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V $$ 其中 $Q,K,V$ 分别表示查询（Query）、键（Key）、值（Value）矩阵。KV Cache 的作用是缓存历史 token 的 $K$ 和 $V$ 矩阵，避免每次生成新 token 时重新计算整个序列的注意力权重[^1][^4]。 2. **空间换时间的本质** 通过牺牲存储空间（缓存历史 KV 值）换取计算时间（减少重复计算），尤其对长序列生成任务（如文本续写）效果显著[^1]。 --- #### 二、KV Cache 的实现步骤 ##### 1. **预填充阶段（Prefill Phase）** - **输入处理**：将完整的输入序列（如 prompt）一次性输入模型。 - **并行计算**：为每个 Transformer 层生成初始的 KV 缓存： ```python # 示例：PyTorch 实现逻辑 k_cache = torch.zeros(batch_size, num_heads, max_seq_len, head_dim) v_cache = torch.zeros_like(k_cache) for i in range(input_seq_len): k_cache[:, :, i, :] = current_layer.key(input_tokens[i]) v_cache[:, :, i, :] = current_layer.value(input_tokens[i]) ``` - **缓存形状**：形状为 $(batch\_size, num\_heads, seq\_len, head\_dim)$，其中 $head\_dim$ 是注意力头的维度[^3][^4]。 ##### 2. **解码阶段（Decode Phase）** - **增量更新**：每生成一个新 token，仅计算当前 token 的 $K_t$ 和 $V_t$，并追加到缓存末尾： ```python # 当前 token 的 KV 计算 k_t = current_layer.key(new_token) v_t = current_layer.value(new_token) # 更新缓存 k_cache = torch.cat([k_cache, k_t], dim=2) v_cache = torch.cat([v_cache, v_t], dim=2) ``` - **注意力计算优化**：仅需计算新 token 的 $Q$ 与历史 $K$、$V$ 的注意力权重，避免全序列重复计算[^3][^4]。 --- #### 三、关键技术实现细节 1. **内存管理策略** - **动态缓存**：根据序列长度动态扩展缓存空间（如使用链表或可扩展张量）。 - **分块存储**：将长序列拆分为固定大小的块（如 512 token/块），减少内存碎片[^2]。 2. **计算优化** - **掩码调整**：在自注意力中应用因果掩码（Causal Mask），确保新 token 仅关注历史信息。 - **内存预分配**：预先分配最大序列长度的缓存空间（如 4096 tokens），避免频繁内存操作[^3]。 3. **框架级实现差异** | 框架/库 | 实现特点 | |---------------|--------------------------------------------------------------------------| | Hugging Face | 使用 `past_key_values` 参数管理缓存，支持动态序列扩展 | | vLLM | 采用 PagedAttention 技术，将 KV Cache 分页存储以支持超长序列生成[^2] | --- #### 四、优化措施与挑战 1. **内存压缩技术** - **量化（Quantization）**：将 KV Cache 从 FP16 压缩至 INT8，内存占用减少 50%[^2]。 - **稀疏化**：通过剪枝移除冗余的 KV 条目。 2. **性能瓶颈** - **显存带宽限制**：KV Cache 频繁读写可能导致显存带宽成为瓶颈。 - **长序列稳定性**：缓存累积可能引发数值溢出或注意力权重衰减[^4]。 ---