什么是vllm_ascend

部署运行你感兴趣的模型镜像

vllm_ascend(有时候写成 vLLM-Ascend)就是 vLLM 在华为昇腾 NPU(Ascend 910/910B、Atlas 系列)上的移植/适配版本。它的目标很直白:把原来跑在英伟达 GPU(CUDA)上的 vLLM 高性能推理框架,搬到昇腾的 CANN/ACL 生态上,让你在国产 NPU 上也能享受 vLLM 的高吞吐、分页 KV Cache、连续批处理这些能力。

要点说下:
1. 来源:它是 vLLM 的一个分支/派生仓库,不是官方纯 CUDA 版,是专门为昇腾做的适配版,仓库里会写怎么装、需要哪版 CANN、Ascend 驱动。
2. 底层换了后端:原版 vLLM 用的是 CUDA+NCCL,这个分支把算子、通信、内存管理换成了华为的 ACL/CANN,把 kernel 重新对齐,所以才能在 910B 那种机器上跑。
3. 目的:让现在中国本地比较热门的模型(比如 GLM、Kimi、文心、昇腾官方 demo 模型)能直接在昇腾上用 vLLM 的高效推理框架,不用自己手写一堆 Ascend 推理脚本。现在社区里还在补各种模型的支持清单。
4. 形态:一般就是一个单独的 repo / 分支,名字里带 ascend;安装文档里会写「需要有 Ascend NPU、Linux、Python 3.10+、安装好 CANN」,跟你装普通 vLLM 不一样。
5. 场景:典型就是你公司/机房不能上 NVIDIA,只能用昇腾,又想要 vLLM 的高并发、多租户、OpenAI 接口兼容,就上 vllm_ascend。最近像 DeepSeek 那类面向国产芯片的模型出来后,vLLM-Ascend 这条线也在跟进。

一句话版:vllm_ascend = 在华为昇腾 NPU 上跑的 vLLM,是给「只能用昇腾、又想要 vLLM 体验」的人准备的。

您可能感兴趣的与本文相关的镜像

PyTorch 2.9

PyTorch 2.9

PyTorch
Cuda

PyTorch 是一个开源的 Python 机器学习库,基于 Torch 库,底层由 C++ 实现,应用于人工智能领域,如计算机视觉和自然语言处理

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

MonkeyKing.sun

对你有帮助的话,可以打赏

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值