【vLLM 学习】使用 XPU 安装

vLLM 是一款专为大语言模型推理加速而设计的框架,实现了 KV 缓存内存几乎零浪费,解决了内存管理瓶颈问题。

更多 vLLM 中文文档及教程可访问 →https://vllm.hyper.ai/

vLLM 最初在 Intel GPU 平台上支持基本模型推理和服务。

  1. 依赖环境
  2. 使用 Dockerfile 快速开始
  3. 从源代码构建

依赖环境

  • 操作系统:Linux
  • 支持的硬件:英特尔数据中心 GPU(英特尔 ARC GPU WIP)
  • OneAPI 要求:oneAPI 2024.1

使用 Dockerfile 快速开始

docker build -f Dockerfile.xpu -t vllm-xpu-env --shm-size=4g .
docker run -it \
             --rm \
             --network=host \
             --device /dev/dri \
             -v /dev/dri/by-path:/dev/dri/by-path \
             vllm-xpu-env

从源代码构建

  • 首先,安装所需的驱动程序和 intel OneAPI 2024.1 (或更高版本)。
  • 其次,安装用于 vLLM XPU 后端构建的 Python 包:
source /opt/intel/oneapi/setvars.sh
pip install --upgrade pip
pip install -v -r requirements-xpu.txt 
  • 最后,构建并安装 vLLM XPU 后端:
VLLM_TARGET_DEVICE=xpu python setup.py install

注意

  • FP16 是当前 XPU 后端的默认数据类型,未来将支持 BF16 数据类型。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值