vllm_ascend(有时候写成 vLLM-Ascend)就是 vLLM 在华为昇腾 NPU(Ascend 910/910B、Atlas 系列)上的移植/适配版本。它的目标很直白:把原来跑在英伟达 GPU(CUDA)上的 vLLM 高性能推理框架,搬到昇腾的 CANN/ACL 生态上,让你在国产 NPU 上也能享受 vLLM 的高吞吐、分页 KV Cache、连续批处理这些能力。
要点说下:
1. 来源:它是 vLLM 的一个分支/派生仓库,不是官方纯 CUDA 版,是专门为昇腾做的适配版,仓库里会写怎么装、需要哪版 CANN、Ascend 驱动。
2. 底层换了后端:原版 vLLM 用的是 CUDA+NCCL,这个分支把算子、通信、内存管理换成了华为的 ACL/CANN,把 kernel 重新对齐,所以才能在 910B 那种机器上跑。
3. 目的:让现在中国本地比较热门的模型(比如 GLM、Kimi、文心、昇腾官方 demo 模型)能直接在昇腾上用 vLLM 的高效推理框架,不用自己手写一堆 Ascend 推理脚本。现在社区里还在补各种模型的支持清单。
4. 形态:一般就是一个单独的 repo / 分支,名字里带 ascend;安装文档里会写「需要有 Ascend NPU、Linux、Python 3.10+、安装好 CANN」,跟你装普通 vLLM 不一样。
5. 场景:典型就是你公司/机房不能上 NVIDIA,只能用昇腾,又想要 vLLM 的高并发、多租户、OpenAI 接口兼容,就上 vllm_ascend。最近像 DeepSeek 那类面向国产芯片的模型出来后,vLLM-Ascend 这条线也在跟进。
一句话版:vllm_ascend = 在华为昇腾 NPU 上跑的 vLLM,是给「只能用昇腾、又想要 vLLM 体验」的人准备的。
962

被折叠的 条评论
为什么被折叠?



