什么是 NPU?
• 全称:Neural Processing Unit(神经网络处理器)。
• 作用:专门为 AI 推理/训练设计的加速芯片,优化矩阵/向量运算,功耗比 GPU 更低,适合大模型、高并发的深度学习任务。
• 典型代表:华为 Ascend 910B/310B,属于国产 NPU 芯片。
• 类比:
• CPU:通用计算
• GPU:图形/通用并行计算
• NPU:深度学习/AI 专用计算
⸻
在 NPU 机器上部署模型的流程
-
硬件/驱动准备
• 安装好 NPU 驱动、固件 和 CANN(Compute Architecture for Neural Networks)工具链。
• 使用 npu-smi info 检查设备是否识别成功、状态是否 OK。
• 显示卡型号(如 910B2)、温度、功耗、内存占用等 → 表示驱动正常。 -
框架适配
根据你要用的深度学习框架选择对应的 NPU 适配版本:
• PyTorch → 安装 torch + torch-npu(匹配 CANN 版本)。
• TensorFlow → 安装 tf-npu(相对少见)。
• MindSpore → 华为原生框架,对 NPU 支持最好。
测试方法(PyTorch 示例):
import torch
x = torch.randn(2,3)
print(x.to("npu").device) # 期望输出 npu:0
-
模型准备
• 从 Hugging Face 或 ModelScope 下载模型权重(如 Qwen、LLaMA、ChatGLM 等)。
• 本地存放在 ./models/xxx。 -
推理服务部署
常用两条路线:
路线 A:vLLM-Ascend(主流)
• 安装:
pip install torch==<版本>
pip install torch-npu==<版本>
pip install vllm-ascend -U
• 启动服务(以 Qwen 为例):
python -m vllm.entrypoints.openai.api_server \
--model ./models/qwen2.5-7b \
--host 0.0.0.0 --port 8000 \
--served-model-name Qwen2.5-7B-Instruct \
--tensor-parallel-size 8
• 调用方式与 OpenAI API 兼容。
路线 B:MindSpore + vLLM-MindSpore Plugin(更原生)
• 使用 MindSpore 框架加载模型权重。
• 借助 vLLM-MindSpore 插件部署服务。
• 优势是原生算子支持更好,但生态资料比 PyTorch 少。
- 验证运行
• 在另一个终端运行:
watch -n1 npu-smi info
看是否有 AICore(%)、HBM-Usage(MB) 的变化 → 表示模型真的在用 NPU。
• 用 curl 测试接口返回结果。
⸻
一句话总结
NPU 是国产 AI 专用芯片(比如华为 Ascend 910B),功能类似 GPU,但针对 AI 算法做了优化。
在 NPU 机器上部署模型的步骤是:驱动+CANN → 安装 torch-npu/MindSpore → 下载模型 → 用 vLLM-Ascend 或 MindSpore 插件启动服务 → npu-smi info 监控验证。
1万+

被折叠的 条评论
为什么被折叠?



