大模型部署指南之 vLLM 篇：基于PagedAttention的工业级推理方案

vLLM：大模型工业级推理部署方案

原创

已于 2025-05-13 17:57:34 修改 · 1k 阅读

·

19

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#大模型 #ai #vllm #部署

于 2025-05-10 00:54:24 首次发布

文章目录

一、vLLM 是什么？

vLLM 是一个快速且易于使用的库，用于 LLM 推理和服务。

1.1 核心优势

vLLM 速度很快，因为它具有：
- 最先进的服务吞吐量
- 使用 PagedAttention 对注意力键和值内存进行高效管理
- 对传入请求进行连续批处理
- 使用 CUDA/HIP 图进行快速模型执行
- 量化：GPTQ、AWQ、INT4、INT8 和 FP8
- 优化的 CUDA 内核，包括与 FlashAttention 和 FlashInfer 的集成。
- 推测解码
- 分块预填充
vLLM 灵活且易于使用，因为它具有：
- 与流行的 HuggingFace 模型无缝集成
- 使用各种解码算法（包括 并行采样、束搜索 等）进行高吞吐量服务
- 支持分布式推理的 张量并行 和 管道并行
- 流式输出
- 与 OpenAI 兼容的 API 服务器
- 支持 NVIDIA GPU、AMD CPU 和 GPU、Intel CPU 和 GPU、PowerPC CPU、TPU 和 AWS Neuron。
- 支持前缀缓存
- 支持多 LoRA

二、快速开始

2.1 安装

conda create -n vllm python=3.10 -y && conda activate vllm
pip install vllm

2.2 验证

vllm --version  # 查看版本

2.3 默认仓库

vLLM 默认从 HuggingFace 上面下载模型
如果需要从 ModelScope 上面下载模型，设置以下环境变量：

export VLLM_US

最低0.47元/天解锁文章

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

CodeSilence 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。