大模型部署指南之 vLLM 篇:基于PagedAttention的工业级推理方案

vLLM:大模型工业级推理部署方案

一、vLLM 是什么?

vLLM 是一个快速且易于使用的库,用于 LLM 推理和服务。

1.1 核心优势

  1. vLLM 速度很快,因为它具有:
    • 最先进的服务吞吐量
    • 使用 PagedAttention 对注意力键和值内存进行高效管理
    • 对传入请求进行连续批处理
    • 使用 CUDA/HIP 图进行快速模型执行
    • 量化:GPTQAWQINT4INT8FP8
    • 优化的 CUDA 内核,包括与 FlashAttentionFlashInfer 的集成。
    • 推测解码
    • 分块预填充
  2. vLLM 灵活且易于使用,因为它具有:
    • 与流行的 HuggingFace 模型无缝集成
    • 使用各种解码算法(包括 并行采样束搜索 等)进行高吞吐量服务
    • 支持分布式推理的 张量并行管道并行
    • 流式输出
    • OpenAI 兼容的 API 服务器
    • 支持 NVIDIA GPU、AMD CPU 和 GPU、Intel CPU 和 GPU、PowerPC CPU、TPU 和 AWS Neuron。
    • 支持前缀缓存
    • 支持多 LoRA

二、快速开始

2.1 安装

conda create -n vllm python=3.10 -y && conda activate vllm
pip install vllm

2.2 验证

vllm --version  # 查看版本

2.3 默认仓库

vLLM 默认从 HuggingFace 上面下载模型
如果需要从 ModelScope 上面下载模型,设置以下环境变量:

export VLLM_US
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

CodeSilence

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值