一、vLLM 介绍 vLLM是伯克利大学LMSYS组织开源的大语言模型高速推理框架。它利用了全新的注意力算法「PagedAttention」,提供易用、快速、便宜的LLM服务。 二、安装 vLLM 2.1 使用 GPU 进行安装 vLLM 是一个Python库,同时也包含预编译的C++和CUDA(12.1版本)二进制文件。 1. 安装条件: OS: Linux Python: 3.8 – 3.11 2.2 使用CPU进行安装