什么是vllm_ascend

最新推荐文章于 2025-12-10 11:28:22 发布

原创最新推荐文章于 2025-12-10 11:28:22 发布 · 834 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#vllm #python

部署运行你感兴趣的模型镜像

vllm_ascend（有时候写成 vLLM-Ascend）就是 vLLM 在华为昇腾 NPU（Ascend 910/910B、Atlas 系列）上的移植/适配版本。它的目标很直白：把原来跑在英伟达 GPU（CUDA）上的 vLLM 高性能推理框架，搬到昇腾的 CANN/ACL 生态上，让你在国产 NPU 上也能享受 vLLM 的高吞吐、分页 KV Cache、连续批处理这些能力。

要点说下：
1. 来源：它是 vLLM 的一个分支/派生仓库，不是官方纯 CUDA 版，是专门为昇腾做的适配版，仓库里会写怎么装、需要哪版 CANN、Ascend 驱动。
2. 底层换了后端：原版 vLLM 用的是 CUDA+NCCL，这个分支把算子、通信、内存管理换成了华为的 ACL/CANN，把 kernel 重新对齐，所以才能在 910B 那种机器上跑。
3. 目的：让现在中国本地比较热门的模型（比如 GLM、Kimi、文心、昇腾官方 demo 模型）能直接在昇腾上用 vLLM 的高效推理框架，不用自己手写一堆 Ascend 推理脚本。现在社区里还在补各种模型的支持清单。
4. 形态：一般就是一个单独的 repo / 分支，名字里带 ascend；安装文档里会写「需要有 Ascend NPU、Linux、Python 3.10+、安装好 CANN」，跟你装普通 vLLM 不一样。
5. 场景：典型就是你公司/机房不能上 NVIDIA，只能用昇腾，又想要 vLLM 的高并发、多租户、OpenAI 接口兼容，就上 vllm_ascend。最近像 DeepSeek 那类面向国产芯片的模型出来后，vLLM-Ascend 这条线也在跟进。

一句话版：vllm_ascend = 在华为昇腾 NPU 上跑的 vLLM，是给「只能用昇腾、又想要 vLLM 体验」的人准备的。

您可能感兴趣的与本文相关的镜像