LLM推理优化——PagedAttention初识篇(vLLM初识(二))
前言
在LLM推理优化——KV Cache篇(百倍提速)中,我们已经介绍了KV Cache技术的原理,从中我们可以知道,KV Cache本质是空间换时间的技术,对于大型模型和长序列,它可能会占用大量内存。实际上LLM从诞生之初就在与内存作斗争,只是计算时间问题更加尖锐,掩盖了这一部分。随着研究的推进,内存问题也变得越来越突出。
vLLM的作者们在论文Efficient Memory Management for Large Language Model Serving with PagedAttention提出了PagedAttention方法并在vLLM中实现。该算法受操作系统中的虚拟内存和分页技术启发,用于解决大型语言模型(LLM)服务中KV缓存内存管理效率低下的问题。
传统的内存管理方法在处理这种高动态性和大规模的KV缓存时,存在显著的缺陷。具体来说,这些方法要么导致内存的浪费(未被有效利用的内存区域),要么限制了批处理的能力,降低了系统的吞吐量。
PagedAttention的核心思想
PagedAttention通过引入分页机制,将KV缓存的数据分块管理,以减少内存碎片并提高内存