什么是NPU，怎么使用国产npu卡部署模型

最新推荐文章于 2025-10-12 10:52:25 发布

原创最新推荐文章于 2025-10-12 10:52:25 发布 · 618 阅读

CC 4.0 BY-SA版权

文章标签：

什么是 NPU？
• 全称：Neural Processing Unit（神经网络处理器）。
• 作用：专门为 AI 推理/训练设计的加速芯片，优化矩阵/向量运算，功耗比 GPU 更低，适合大模型、高并发的深度学习任务。
• 典型代表：华为 Ascend 910B/310B，属于国产 NPU 芯片。
• 类比：
• CPU：通用计算
• GPU：图形/通用并行计算
• NPU：深度学习/AI 专用计算

⸻

在 NPU 机器上部署模型的流程

硬件/驱动准备
• 安装好 NPU 驱动、固件和 CANN（Compute Architecture for Neural Networks）工具链。
• 使用 npu-smi info 检查设备是否识别成功、状态是否 OK。
• 显示卡型号（如 910B2）、温度、功耗、内存占用等 → 表示驱动正常。
框架适配

根据你要用的深度学习框架选择对应的 NPU 适配版本：
• PyTorch → 安装 torch + torch-npu（匹配 CANN 版本）。
• TensorFlow → 安装 tf-npu（相对少见）。
• MindSpore → 华为原生框架，对 NPU 支持最好。

测试方法（PyTorch 示例）：

import torch
x = torch.randn(2,3)
print(x.to("npu").device)  # 期望输出 npu:0

模型准备
• 从 Hugging Face 或 ModelScope 下载模型权重（如 Qwen、LLaMA、ChatGLM 等）。
• 本地存放在 ./models/xxx。
推理服务部署

常用两条路线：

路线 A：vLLM-Ascend（主流）
• 安装：

pip install torch==<版本>
pip install torch-npu==<版本>
pip install vllm-ascend -U

•	启动服务（以 Qwen 为例）：

python -m vllm.entrypoints.openai.api_server \
  --model ./models/qwen2.5-7b \
  --host 0.0.0.0 --port 8000 \
  --served-model-name Qwen2.5-7B-Instruct \
  --tensor-parallel-size 8

•	调用方式与 OpenAI API 兼容。

路线 B：MindSpore + vLLM-MindSpore Plugin（更原生）
• 使用 MindSpore 框架加载模型权重。
• 借助 vLLM-MindSpore 插件部署服务。
• 优势是原生算子支持更好，但生态资料比 PyTorch 少。

验证运行
• 在另一个终端运行：

watch -n1 npu-smi info

看是否有 AICore(%)、HBM-Usage(MB) 的变化 → 表示模型真的在用 NPU。

•	用 curl 测试接口返回结果。

⸻

一句话总结

NPU 是国产 AI 专用芯片（比如华为 Ascend 910B），功能类似 GPU，但针对 AI 算法做了优化。
在 NPU 机器上部署模型的步骤是：驱动+CANN → 安装 torch-npu/MindSpore → 下载模型 → 用 vLLM-Ascend 或 MindSpore 插件启动服务 → npu-smi info 监控验证。