Automatic Prefix Caching

最新推荐文章于 2025-07-04 11:26:54 发布

smartcat2010

最新推荐文章于 2025-07-04 11:26:54 发布

阅读量510

点赞数 1

CC 4.0 BY-SA版权

分类专栏： LLM推理优化文章标签： GPU 大模型

本文链接：https://blog.youkuaiyun.com/smartcat2010/article/details/145414549

LLM推理优化专栏收录该内容

39 篇文章

订阅专栏

APC技术，遇到新prompt和老prompt前缀完全相等的，则复用老prompt的KV cache，避免重新计算。

VLLM代码实例：

# set enable_prefix_caching=True to enable APC
llm = LLM(
    model='lmsys/longchat-13b-16k',
    enable_prefix_caching=True
)

应用场景：

1. 长文档问答。给1个长文档，变换不同的query。则把长文档放到前面，可以复用KV cache。

2. 多轮聊天。多轮对话聊天历史，放到前面，可以复用KV cache。

我的实验：

1. fetch_count>1时，不管是否打开enable_prefix_caching，prompt的KV cache都会被复用。

2. prefill公共前缀较长，且decode output较短时，KV cache复用的威力才能发挥出来。

3. 只要前面有1个字符不同，后面完全相同的部分，也不能被视为公共前缀。因为2个prompt这部分的KV值不相等了。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

smartcat2010

关注关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

vLLM专题（十四）-自动前缀缓存

02-25

498

自动前缀缓存（Automatic Prefix Caching，简称 APC）缓存现有查询的 KV 缓存，以便新查询如果与现有查询共享相同的前缀，可以直接重用 KV 缓存，从而跳过共享部分的计算。有关 vLLM 如何实现 APC 的技术细节，请参阅。

LMDeploy：开启大语言模型部署新纪元

步子哥的博客

07-26

410

在人工智能快速发展的今天，大语言模型(LLM)正在各个领域掀起革命性变革。然而，如何高效地将这些庞大的模型部署到实际应用中，一直是一个巨大的挑战。近日，由MMDeploy和MMRazor团队联合开发的LMDeploy横空出世，为这一难题提供了一套全面的解决方案。

参与评论您还未登录，请先登录后发表或查看评论

vllm 里的 Automatic Prefix Caching 是什么意思，详细讲解下这个概念

最新发布

weixin_40548182的博客

07-04

1036

vLLM 的 Automatic Prefix Caching 本质上是智能复用共享前缀的 KV Cache，以避免重复计算，提升推理效率、吞吐量和显存利用率。它与 Huggingface、Triton 的区别；实现细节中的 PagedAttention；是否支持 Streaming；我可以继续深入解释。需要吗？Q: 多并发场景中 prompt 都不同，Automatic Prefix Caching 还有意义吗？A: 有！因为在实际应用中，并发请求往往存在前缀重复或相似结构。

Prefix Caching 详解：实现 KV Cache 的跨请求高效复用

cr7258的博客

06-08

1392

前缀缓存（Prefix Caching）是一种大语言模型推理优化技术，它的核心思想是缓存历史对话中的 KV Cache，以便后续请求能直接重用这些中间结果。这样可以显著降低首 token 延迟，提升整体推理效率。Prefix Caching 尤其适用于多轮对话、长文档问答等高前缀复用场景。Few-shot learning（少样本学习）：多个请求都包含相同的 few-shot 示例部分，只是最后的问题不同。

昇腾のPrefix Cache

小白菜的博客

06-27

973

Prefix Cache 即前缀缓存，是一种用于优化大语言模型（LLM）推理性能的技术，主要应用于多轮对话、系统提示等具有大量共同前缀的场景。LLM 推理计算主要包括 Prefill 阶段（Prompt 计算）和 Decode 阶段。Prefill 阶段为 Decode 阶段准备 KV Cache，通常这些 KV Cache 只为单条推理请求服务，请求结束后会被清除。但在一些场景下，多次请求的 Prompt 可能共享同一个前缀，其 KV Cache 计算结果相同，Prefix Cache 就是将这些相同前缀

图解大模型计算加速系列：vLLM源码解析3，Prefix Caching

python1234567_的博客

10-05

1591

当一个物理块没有任何逻辑块引用时（例如一个seq刚做完整个推理），这时它理应被释放。

vllm 参数介绍

张伟的专栏

04-12

5918

一个重要参数enable-prefix-caching 特殊场景会提高很大性能。详细建视频：https://www.toutiao.com/video/7355331984845734435/?channel=&source=search_tabBelow, you can find an explanation of every engine argument for vLLM:--model Name or path of the huggingface mode

vLLMの物理块管理

whaosoft143ai的博客

05-02

1270

在原理篇中，我们提过又些prompts中可能含有类似system message（例如，“假设你是一个能提供帮助的行车导航”）等prefix信息，带有这些相同prefix信息的prompt完全可以共享用于存放prefix的物理块，这样既节省显存，也不用再对prefix做推理。两个版本的块管理器。同样，在这里我们依然要强调，调度器中只是给出了物理块的分配方案，并没有实际往物理块中添加数据，添加数据这一步是CacheEngine照着这个方案来实际操作的，这个我们放在后面的文章中讲解。动手画画图，帮助理清过程。

[LLM性能优化]聊聊长文本推理性能优化方向

强化学习曾小健

07-17

1958

但是，如果我们利用 MQA 共享头的特性，将 Grid Size 设置为 [B] ，那么一个 Thread Block 的三个输入矩阵 q,k,v 的 Shape 将为 [N∗q_len,H]、[kv_len,H]、[kv_len,H]， q_len 相比 MHA 实现"提升"了 N 倍，算术强度也提升接近N 倍，可以降低访存开销。，得到注意力层的输出矩阵。，不参与注意力计算，在保证模型效果的前提下压缩 KVCache 长度，从而在一定量的显存下保存更多的 Token，提高长文本的推理效率。

vLLM 大模型推理引擎调研文档

技术分享，读书笔记，面试宝典，算法积累，应有尽有～

10-16

2861

vLLM 是一个快速且易于使用的 LLM 推理和服务库，文章内容包含模型引擎部署、参数量化、性能调优分析等全套内容。

VLLM专题（三十九）—自动前缀缓存（二）

03-19

579

前缀缓存（Prefix Caching）是一种在LLM推理中广泛使用的优化技术，旨在避免冗余的提示词（prompt）计算。其核心思想很简单——我们缓存已处理请求的键值缓存（kv-cache）块，并在新请求的前缀与之前请求相同时重用这些块。由于前缀缓存几乎是一种“免费的午餐”，并且不会改变模型输出，因此它已被许多公共端点（例如OpenAI、Anthropic等）和大多数开源LLM推理框架（例如SGLang）广泛采用。尽管实现前缀缓存的方法有很多，但vLLM选择了一种基于哈希的方法。

现代LLM基本技术整理

AIBigModel的博客

09-23

1648

最近平时工作可以说是把脑子想“干”了，所以花大概三个周末完成了这篇接近2w字的文章。写完感觉有很多不足，但还是随便找个时间发了吧。其一是，本来是打算从Llama 3这种优质开源模型和报告出发，进行一些知识上的梳理，结果行文时几乎保留了论文原来的结构，导致前一个知识点到下一个知识点不够丝滑；其二是，由于水平不够和“综合性”考量的限制，所以对很多需要深入的知识没有详尽。后面几个周末也许还会持续迭代一下本文，主要是继续细化技术点。所以也恳请诸位指出错误或不足，尽情提出需要补充内容的部分。

LLM时代中的AI推理优化

世事难料，保持低调

06-15

6740

毫无疑问，AI是当下最热的话题之一，而大模型又是当前AI的主角。几年前，正当深度学习进入瓶颈时，以GPT为首的LLM的横空出世让之似乎又找到了“第二增长曲线”。当模型规模大到一定程度时，它所表现出来的涌现能力（Emergent ability）是之前在小模型中所不曾见过的。这种大模型所特有的推理、计算等能力给我们带来了无穷的想象空间。但是，它的代价是模型和以往模型相比增大了成百上千倍。要玩大模型十亿参数基本是个入门级门槛，上百亿才算像点样。各个大公司为了争夺大模型的话语权，更是将大模型越“卷”越大。

在Win11上部署大模型推理加速工具vLLM

热门推荐

培根芝士的专栏

04-08

2万+

vLLM是伯克利大学LMSYS组织开源的大语言模型高速推理框架，旨在极大地提升实时场景下的语言模型服务的吞吐与内存使用效率。vLLM是一个快速且易于使用的库，用于 LLM 推理和服务，可以和HuggingFace 无缝集成。vLLM利用了全新的注意力算法PagedAttention，有效地管理注意力键和值。在吞吐量方面，vLLM的性能比HuggingFace Transformers(HF)高出 24 倍，文本生成推理（TGI）高出3.5倍。

Spring Boot手把手教学(19)：如何缓存数据, 减少数据库的访问频率？

非著名程序猿

02-26

1663

1、前言在实际项目中，我们不仅需要实现应用的功能，也需要考虑整个应用的性能问题。当大量用户访问相同数据时，对数据库是个很大的考验。这时候如果使用数据缓存技术了，同样的数据就不需要通过访问数据库获取处理，在应用层面就可以拿到缓存数据，可以减轻数据库的压力、同时也能提高数据的响应速度。那么在Spring Boot中提供哪些缓存支持呢？ Spring Framework中提供了对缓存数据的支持，核心是通过在方法中应用缓存方法，然后根据缓存中的已有可用信息来减少大量的执行次数。Spring Boot自动携带

VLLM参数解释-中文表格形式

qq_41527980的博客

06-21

1万+

vllm参数-中文

vLLM~3

whaosoft143ai的博客

04-15

349

我们知道模型在做推理时，waiting队列中是源源不断有seq_group进来的，一旦vLLM选择调度waiting队列，它就会停下对running/swapped中seq_group的decode处理，转而去做waiting中seq_group的prefill，也即。：正在swapped队列中，表示此时gpu资源不足，相关的seq_group被抢占，导致其暂停推理，相关的KV block被置换到cpu上（swap out），等待gpu资源充足时再置换回来重新计算（swap in）。whaosoft ai

vllm端口

04-04