【vLLM 学习】安装

vLLM 是一款专为大语言模型推理加速而设计的框架,实现了 KV 缓存内存几乎零浪费,解决了内存管理瓶颈问题。

更多 vLLM 中文文档及教程可访问 →https://vllm.hyper.ai/

vLLM 是一个 Python 库,包含预编译的 C++ 和 CUDA (12.1) 二进制文件。

依赖环境

  • 操作系统:Linux
  • Python:3.8 - 3.12
  • GPU:计算能力 7.0 或更高(例如 V100、T4、RTX20xx、A100、L4、H100 等)

使用 pip 安装

您可以使用 pip 安装 vLLM:

# (Recommended) Create a new conda environment.
#(推荐)创建一个新的 conda 环境。

conda create -n myenv python=3.10 -y
conda activate myenv

# Install vLLM with CUDA 12.1.
# 安装带有 CUDA 12.1 的 vLLM。

pip install vllm

注意

截至目前,vLLM 的二进制文件默认使用 CUDA 12.1 和公共 PyTorch 发行版本进行编译。我们还提供使用 CUDA 11.8 和公共 PyTorch 发行版本编译的 vLLM 二进制文件:

# Install vLLM with CUDA 11.8.
# 安装带有 CUDA 11.8 的 vLLM。

export VLLM_VERSION=0.4.0
export PYTHON_VERSION=310
pip install https://github.com/vllm-project/vllm/releases/download/v${VLLM_VERSION}/vllm-${VLLM_VERSION}+cu118-cp${PYTHON_VERSION}-cp${PYTHON_VERSION}-manylinux1_x86_64.whl --extra-index-url https://download.pytorch.org/whl/cu118

为了提高性能,vLLM 必须编译多个 cuda 内核。遗憾的是,这种编译会引入其他 CUDA 版本和 PyTorch 版本的二进制不兼容性,即使对于具有不同构建配置的相同 PyTorch 版本也是如此。

因此,建议使用 全新的 conda 环境安装 vLLM。如果您有不同的 CUDA 版本或者想要使用现有的 PyTorch 安装,则需要从源代码构建 vLLM。请参阅以下的说明。

注意

自 v0.5.3 版本以来,vLLM 还为每次提交发布一个 wheel 子集(Python 3.10、3.11 和 CUDA 12)。您可以使用以下命令下载它们:

 export VLLM_VERSION=0.5.4 # vLLM's main branch version is currently set to latest released tag

export VLLM_VERSION=0.5.4 # vLLM 的主分支版本当前设置为最新发布的标签

pip install https://vllm-wheels.s3.us-west-2.amazonaws.com/nightly/vllm-${VLLM_VERSION}-cp38-abi3-manylinux1_x86_64.whl
# You can also access a specific commit

# 你还可以访问特定的提交

# export VLLM_COMMIT=...

# 导出 VLLM_COMMIT=...

# pip install https://vllm-wheels.s3.us-west-2.amazonaws.com/${VLLM_COMMIT}/vllm-${VLLM_VERSION}-cp38-abi3-manylinux1_x86_64.whl

从源代码构建

您还可以从源代码构建并安装 vLLM:

git clone https://github.com/vllm-project/vllm.git
cd vllm
pip install -e .  # This may take 5-10 minutes.

pip install -e 。  # 这可能需要 5-10 分钟。

注意

vLLM 只能在 Linux 上完全运行,但您仍然可以在其他系统(例如 macOS)上构建它。此构建仅用于开发目的,允许导入并提供更方便的开发环境。这些二进制文件不会被编译,也无法在非 Linux 系统上运行。您可以使用以下命令创建这样的构建:

export VLLM_TARGET_DEVICE=empty
pip install -e .

提示

从源代码进行构建需要大量的编译工作。如果您多次从源代码构建,那么缓存编译结果是很有益处的。例如,您可以通过 conda install ccache 或 apt install ccache 安装 ccache 。只要 which ccache 命令可以找到 ccache 二进制文件,构建系统就会自动使用它。在第一次构建之后,后续的构建将会快很多。

提示

为了避免系统过载,您可以通过环境变量 MAX_JOBS 限制同时运行的编译任务数量。例如:

export MAX_JOBS=6
pip install -e .

提示

如果您在构建 vLLM 时遇到问题,我们建议使用 NVIDIA PyTorch Docker 镜像。

# Use `--ipc=host` to make sure the shared memory is large enough.

# 使用 `--ipc=host` 确保共享内存足够大。

docker run --gpus all -it --rm --ipc=host nvcr.io/nvidia/pytorch:23.10-py3

如果您不想使用 docker,建议完整安装 CUDA 工具包。您可以从官方网站下载并安装它。安装完成后,将环境变量 CUDA_HOME 设置为 CUDA 工具包的安装路径,并确保 nvcc 编译器在您的 PATH 中,例如:

export CUDA_HOME=/usr/local/cuda
export PATH="${CUDA_HOME}/bin:$PATH"

以下是验证 CUDA 工具包是否已正确安装的完整检查:

nvcc --version # verify that nvcc is in your PATH

nvcc --version # 验证 nvcc 是否在您的 PATH 中

${CUDA_HOME}/bin/nvcc --version # verify that nvcc is in your CUDA_HOME

${CUDA_HOME}/bin/nvcc --version # 验证 nvcc 是否在您的 CUDA_HOME 中
<think>嗯,用户想找如何安装vLLM的逐步指南。我需要先回忆一下vLLM的相关信息。vLLM是一个高效的LLM推理和服务,由加州大学伯克利分校开发,支持Hugging Face模型,特别适合高吞吐量的场景。安装步骤通常包括环境准备、安装依赖、安装vLLM本身,可能还有验证安装和额外配置。 首先,用户可能需要先安装Python,因为vLLM是基于Python的。Python版本要求可能在3.8或更高。然后,安装PyTorch,因为很多深度学习都依赖它。接下来,通过pip安装vLLM,可能需要指定版本或者从源码安装,特别是如果用户需要最新功能或修复。 还要考虑CUDA版本的问题,因为vLLM需要GPU支持,用户需要确保安装了与PyTorch兼容的CUDA版本。例如,PyTorch 2.1+通常对应CUDA 11.8或12.1。可能还需要安装其他依赖,比如fsspec,用于模型加载。 安装完成后,用户可能需要验证安装是否成功,比如运行一个简单的示例代码,导入vLLM并加载模型。如果有错误,可能需要检查CUDA是否安装正确,或者依赖项是否齐全。 另外,用户可能有特殊需求,比如源码安装、多GPU支持或者量化支持,这时候需要额外的步骤,比如安装NCCL或FlashAttention。另外,如果是离线环境,需要预先下载模型文件,可能还要设置环境变量。 需要注意的是,用户的问题可能还涉及不同操作系统,比如Linux或Windows,但vLLM可能主要支持Linux,所以需要提醒用户注意系统兼容性。此外,可能还需要指导如何解决常见安装错误,比如CUDA版本不匹配,或者缺少依赖。 最后,根据用户提供的引用内容,虽然引用是关于API测试和traceroute的,但可能与安装过程中的测试步骤或网络配置有关,不过可能关联不大,但需要确保回答中的引用正确。例如,在安装过程中可能需要网络配置或测试步骤,可以参考类似的结构,但具体的vLLM安装步骤可能需要依据官方文档。 总结步骤应该是:环境准备(Python、CUDA)、安装PyTorch、安装vLLM(pip或源码)、验证安装、额外配置。每个步骤给出具体命令和注意事项,比如使用conda创建虚拟环境,选择合适的PyTorch版本,处理可能出现的依赖问题等。</think>### 如何安装vLLM:分步指南 vLLM 是一个高效的分布式大语言模型(LLM)推理和服务,由加州大学伯克利分校开发。以下是详细的安装步骤: --- #### **1. 环境准备** - **操作系统**:推荐使用 Linux(如 Ubuntu 20.04+)或 macOS(需注意部分功能可能受限)。 - **Python 版本**:确保已安装 Python 3.8 或更高版本。 - **CUDA 支持**:vLLM 依赖 GPU 加速,需安装与 PyTorch 兼容的 CUDA 版本(如 11.8 或 12.1)[^1]。 --- #### **2. 安装依赖** ##### **2.1 安装 PyTorch** 从 [PyTorch 官网](https://pytorch.org/) 获取对应 CUDA 版本安装命令。例如: ```bash # 示例:CUDA 12.1 环境 pip install torch==2.1.2 torchvision==0.16.2 torchaudio==2.1.2 --index-url https://download.pytorch.org/whl/cu121 ``` ##### **2.2 安装其他依赖** ```bash pip install fsspec # 用于模型加载 ``` --- #### **3. 安装 vLLM** ##### **3.1 通过 PyPI 安装(推荐)** ```bash pip install vllm ``` ##### **3.2 从源码安装(可选)** 若需最新功能或自定义修改: ```bash git clone https://github.com/vllm-project/vllm.git cd vllm pip install -e . # 开发模式安装 ``` --- #### **4. 验证安装** 运行以下 Python 代码测试是否成功: ```python from vllm import LLM llm = LLM(model="meta-llama/Meta-Llama-3-8B-Instruct") output = llm.generate("Hello, how are you?") print(output) ``` 若出现 `ImportError`,检查 CUDA 和 PyTorch 版本是否兼容。 --- #### **5. 额外配置** - **多 GPU 支持**:安装 NCCL 以支持分布式推理。 - **量化支持**:安装 `bitsandbytes` : ```bash pip install bitsandbytes ``` - **离线模型加载**:使用 `huggingface-cli` 预先下载模型文件。 --- #### **常见问题** 1. **CUDA 版本不匹配**:根据 PyTorch 版本选择对应的 CUDA 版本。 2. **模型加载失败**:检查 Hugging Face 访问权限或网络代理设置[^2]。 ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值