LLM推理优化——PagedAttention初识篇（vLLM初识（二））

最新推荐文章于 2025-06-08 01:41:26 发布

原创

最新推荐文章于 2025-06-08 01:41:26 发布

· 519 阅读

10 ·

版权

文章标签：

#神经网络 #transformer #深度学习

LLM推理优化——PagedAttention初识篇（vLLM初识（二））

前言

在LLM推理优化——KV Cache篇（百倍提速）中，我们已经介绍了KV Cache技术的原理，从中我们可以知道，KV Cache本质是空间换时间的技术，对于大型模型和长序列，它可能会占用大量内存。实际上LLM从诞生之初就在与内存作斗争，只是计算时间问题更加尖锐，掩盖了这一部分。随着研究的推进，内存问题也变得越来越突出。

vLLM的作者们在论文Efficient Memory Management for Large Language Model Serving with PagedAttention提出了PagedAttention方法并在vLLM中实现。该算法受操作系统中的虚拟内存和分页技术启发，用于解决大型语言模型（LLM）服务中KV缓存内存管理效率低下的问题。

传统的内存管理方法在处理这种高动态性和大规模的KV缓存时，存在显著的缺陷。具体来说，这些方法要么导致内存的浪费（未被有效利用的内存区域），要么限制了批处理的能力，降低了系统的吞吐量。