VLLM
vLLM使用了PageAttention技术,对模型推理进行加速。 在注意力机制中,每个token有KEY, VALUE两个张量,这两个张量在存储分配显存的时候,预留出大量的空间,导致碎片化的浪费,VLLM通过借鉴操作系统的分页思想,隔离物理和逻辑内存,中间记录处理内存地址,从而降低内存的占用,提高了batch_zize, 吞吐量。



本文介绍了一种名为VLLM的技术,它通过引入PageAttention,解决了注意力机制中内存碎片问题。VLLM借鉴分页系统原理,隔离物理和逻辑内存,有效降低内存占用,从而实现更大的batch_size和提高吞吐量。
vLLM使用了PageAttention技术,对模型推理进行加速。 在注意力机制中,每个token有KEY, VALUE两个张量,这两个张量在存储分配显存的时候,预留出大量的空间,导致碎片化的浪费,VLLM通过借鉴操作系统的分页思想,隔离物理和逻辑内存,中间记录处理内存地址,从而降低内存的占用,提高了batch_zize, 吞吐量。



232
6433

被折叠的 条评论
为什么被折叠?