什么是NPU,怎么使用国产npu卡部署模型

什么是 NPU?
• 全称:Neural Processing Unit(神经网络处理器)。
• 作用:专门为 AI 推理/训练设计的加速芯片,优化矩阵/向量运算,功耗比 GPU 更低,适合大模型、高并发的深度学习任务。
• 典型代表:华为 Ascend 910B/310B,属于国产 NPU 芯片。
• 类比:
• CPU:通用计算
• GPU:图形/通用并行计算
• NPU:深度学习/AI 专用计算

在 NPU 机器上部署模型的流程

  1. 硬件/驱动准备
    • 安装好 NPU 驱动、固件 和 CANN(Compute Architecture for Neural Networks)工具链。
    • 使用 npu-smi info 检查设备是否识别成功、状态是否 OK。
    • 显示卡型号(如 910B2)、温度、功耗、内存占用等 → 表示驱动正常。

  2. 框架适配

根据你要用的深度学习框架选择对应的 NPU 适配版本:
• PyTorch → 安装 torch + torch-npu(匹配 CANN 版本)。
• TensorFlow → 安装 tf-npu(相对少见)。
• MindSpore → 华为原生框架,对 NPU 支持最好。

测试方法(PyTorch 示例):

import torch
x = torch.randn(2,3)
print(x.to("npu").device)  # 期望输出 npu:0
  1. 模型准备
    • 从 Hugging Face 或 ModelScope 下载模型权重(如 Qwen、LLaMA、ChatGLM 等)。
    • 本地存放在 ./models/xxx。

  2. 推理服务部署

常用两条路线:

路线 A:vLLM-Ascend(主流)
• 安装:

pip install torch==<版本>
pip install torch-npu==<版本>
pip install vllm-ascend -U
•	启动服务(以 Qwen 为例):
python -m vllm.entrypoints.openai.api_server \
  --model ./models/qwen2.5-7b \
  --host 0.0.0.0 --port 8000 \
  --served-model-name Qwen2.5-7B-Instruct \
  --tensor-parallel-size 8
•	调用方式与 OpenAI API 兼容。

路线 B:MindSpore + vLLM-MindSpore Plugin(更原生)
• 使用 MindSpore 框架加载模型权重。
• 借助 vLLM-MindSpore 插件部署服务。
• 优势是原生算子支持更好,但生态资料比 PyTorch 少。

  1. 验证运行
    • 在另一个终端运行:
watch -n1 npu-smi info

看是否有 AICore(%)、HBM-Usage(MB) 的变化 → 表示模型真的在用 NPU。

•	用 curl 测试接口返回结果。

一句话总结

NPU 是国产 AI 专用芯片(比如华为 Ascend 910B),功能类似 GPU,但针对 AI 算法做了优化。
在 NPU 机器上部署模型的步骤是:驱动+CANN → 安装 torch-npu/MindSpore → 下载模型 → 用 vLLM-Ascend 或 MindSpore 插件启动服务 → npu-smi info 监控验证。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

MonkeyKing.sun

对你有帮助的话,可以打赏

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值