文章目录
一、vLLM 是什么?
vLLM 是一个快速且易于使用的库,用于 LLM 推理和服务。
1.1 核心优势
- vLLM 速度很快,因为它具有:
- 最先进的服务吞吐量
- 使用
PagedAttention对注意力键和值内存进行高效管理 - 对传入请求进行连续批处理
- 使用
CUDA/HIP图进行快速模型执行 - 量化:
GPTQ、AWQ、INT4、INT8和FP8 - 优化的
CUDA内核,包括与FlashAttention和FlashInfer的集成。 - 推测解码
- 分块预填充
- vLLM 灵活且易于使用,因为它具有:
- 与流行的
HuggingFace模型无缝集成 - 使用各种解码算法(包括
并行采样、束搜索等)进行高吞吐量服务 - 支持分布式推理的
张量并行和管道并行 - 流式输出
- 与
OpenAI兼容的 API 服务器 - 支持 NVIDIA GPU、AMD CPU 和 GPU、Intel CPU 和 GPU、PowerPC CPU、TPU 和 AWS Neuron。
- 支持前缀缓存
- 支持多 LoRA
- 与流行的
二、快速开始
2.1 安装
conda create -n vllm python=3.10 -y && conda activate vllm
pip install vllm
2.2 验证
vllm --version # 查看版本
2.3 默认仓库
vLLM 默认从 HuggingFace 上面下载模型
如果需要从 ModelScope 上面下载模型,设置以下环境变量:
export VLLM_US
vLLM:大模型工业级推理部署方案

最低0.47元/天 解锁文章
3万+

被折叠的 条评论
为什么被折叠?



