木子雨田.-优快云博客

原创昇腾MindSpeed特性开发指南

MindSpeed 是针对华为昇腾设备的大模型加速库。大模型训练是一种非常复杂的过程，涉及到许多技术和挑战，其中大模型训练需要大量的显存资源是一个难题，对计算卡提出了不小的挑战。为了在单个计算卡显存资源不足时，可以通过多张计算卡进行计算，业界出现了类似 Megatron、DeepSpeed 等第三方大模型加速库，对模型、输入数据等进行切分并分配到不同的计算卡上，最后再通过集合通信对结果进行汇总。

2025-05-27 17:43:28 1024

原创昇腾卡上模型训练过程中出现grad_norm为NAN的问题定位方法

grad_norm通常用模型参数梯度的范数表示，常用二范数计算；所以grad_norm出现NAN值先排查模型参数的梯度是否存在NAN值；Megatron-LM中grad_norm计算方法是MegatronOptimizer类中的clip_grad_norm方法（megatron/optimizer/optimizer.py文件中）

2025-05-27 17:12:06 875

原创昇腾卡上训练模型遇到报错rtEnableP2P failed的解决方法

因此，模型初始化各网络层时的npu()数据和模型加载的ckpt都在0卡上，但训练时产生的数据都在各个卡上，一起计算时就会出现0卡和其它卡之间的通信拷贝。每张卡pcie有16个atu资源，每张卡通信时都占用2个atu（一个发送，一个接受），意味着同时最多只能和8个device p2p enable.组网时HCCL又限制了只能在当前环所有卡，和另外一个环里的一张卡，比如0和8，1和9。4）排查模型代码，发现模型初始化有很多.cuda操作，通过transfer_to_npu加载了到了npu:0上。

2025-05-26 20:07:42 405

原创 Qwen3在昇腾卡上的训练和推理部署

Qwen3是Qwen系列中最新一代的大型语言模型，提供了密集和混合专家(MoE)模型的全面套件。思维模式（用于复杂的逻辑推理、数学和编码）和非思维模式（用于高效、通用的对话）在单个模型内无缝切换，确保跨各种场景的最佳性能。增强了推理能力在数学、代码生成和常识逻辑推理方面超过了之前的QwQ（思维模式）和Qwen2.5（非思维模式）。人类偏好调整，擅长创意写作、角色扮演、多轮对话和指令跟随，提供更自然、更吸引人、更沉浸式的对话体验。

2025-05-15 18:04:27 3624

原创昇腾计算图融合算法开发教程

本教程端到端教会用户完成：将Pytorch训好的模型转化为昇腾计算图表达，然后自定义规则对计算图做融合优化，最后将优化后的计算图做编译运行，从而针对性的深度优化用户自定义模型的推理性能。Pytorch模型转化为onnx格式return xreturn xreturn xif stride!resnet50_model = torch.load('resnet50.pth', map_location='cpu') #根据实际文件路径名称修改。

2025-05-06 17:53:51 401

原创昇腾大模型量化推理--ModelSlim量化工具使用

MindStudio ModelSlim，昇腾模型压缩工具，一个以加速为目标、压缩为技术、昇腾为根本的亲和压缩工具。支持训练加速和推理加速，包括模型低秩分解、稀疏训练、训练后量化、量化感知训练等功能，昇腾AI模型开发用户可以灵活调用Python API接口，对模型进行性能调优，并支持导出不同格式模型，在昇腾AI处理器上运行。

2025-04-20 13:46:45 1302

原创昇腾平台上的pytorch模型训练和性能调优指南

在昇腾异构计算架构中，MindStudio Insight工具以时间线（Timeline）的呈现方式将训练/推理过程中的host、device上的运行详细情况平铺在时间轴上，直观呈现host侧的API耗时情况以及device侧的task耗时，并将host与device进行关联呈现，帮助用户快速识别host瓶颈或device瓶颈，同时提供各种筛选分类、专家建议等功能，支撑用户进行深度调优。训练脚本在运行的同时，会自动将脚本中的CUDA接口替换为昇腾AI处理器支持的NPU接口，整体过程为边训练边转换。

2025-02-17 23:07:19 2447

原创 DeepSeek-V3/R1在昇腾硬件上的量化测试指南

可以帮助开发者在昇腾硬件上快速部署DeepSeek-V3/R1量化模型

2025-02-08 22:01:00 3319 2

weixin_41374321的博客