- 博客(8)
- 收藏
- 关注
原创 昇腾MindSpeed特性开发指南
MindSpeed 是针对华为昇腾设备的大模型加速库。大模型训练是一种非常复杂的过程,涉及到许多技术和挑战,其中大模型训练需要大量的显存资源是一个难题,对计算卡提出了不小的挑战。为了在单个计算卡显存资源不足时,可以通过多张计算卡进行计算,业界出现了类似 Megatron、DeepSpeed 等第三方大模型加速库,对模型、输入数据等进行切分并分配到不同的计算卡上,最后再通过集合通信对结果进行汇总。
2025-05-27 17:43:28
1024
原创 昇腾卡上模型训练过程中出现grad_norm为NAN的问题定位方法
grad_norm通常用模型参数梯度的范数表示,常用二范数计算;所以grad_norm出现NAN值先排查模型参数的梯度是否存在NAN值;Megatron-LM中grad_norm计算方法是MegatronOptimizer类中的clip_grad_norm方法(megatron/optimizer/optimizer.py文件中)
2025-05-27 17:12:06
875
原创 昇腾卡上训练模型遇到报错rtEnableP2P failed的解决方法
因此,模型初始化各网络层时的npu()数据 和 模型加载的ckpt都在0卡上,但训练时产生的数据都在各个卡上,一起计算时就会出现0卡和其它卡之间的通信拷贝。每张卡pcie有16个atu资源,每张卡通信时都占用2个atu(一个发送,一个接受),意味着同时最多只能和8个device p2p enable.组网时HCCL又限制了只能在当前环所有卡,和另外一个环里的一张卡,比如0和8,1和9。4)排查模型代码,发现模型初始化有很多.cuda操作,通过transfer_to_npu加载了到了npu:0上。
2025-05-26 20:07:42
405
原创 Qwen3在昇腾卡上的训练和推理部署
Qwen3是Qwen系列中最新一代的大型语言模型,提供了密集和混合专家(MoE)模型的全面套件。思维模式(用于复杂的逻辑推理、数学和编码)和非思维模式(用于高效、通用的对话)在单个模型内无缝切换,确保跨各种场景的最佳性能。增强了推理能力在数学、代码生成和常识逻辑推理方面超过了之前的QwQ(思维模式)和Qwen2.5(非思维模式)。人类偏好调整,擅长创意写作、角色扮演、多轮对话和指令跟随,提供更自然、更吸引人、更沉浸式的对话体验。
2025-05-15 18:04:27
3624
原创 昇腾计算图融合算法开发教程
本教程端到端教会用户完成:将Pytorch训好的模型转化为昇腾计算图表达,然后自定义规则对计算图做融合优化,最后将优化后的计算图做编译运行,从而针对性的深度优化用户自定义模型的推理性能。Pytorch模型转化为onnx格式return xreturn xreturn xif stride!resnet50_model = torch.load('resnet50.pth', map_location='cpu') #根据实际文件路径名称修改。
2025-05-06 17:53:51
401
原创 昇腾大模型量化推理--ModelSlim量化工具使用
MindStudio ModelSlim,昇腾模型压缩工具,一个以加速为目标、压缩为技术、昇腾为根本的亲和压缩工具。支持训练加速和推理加速,包括模型低秩分解、稀疏训练、训练后量化、量化感知训练等功能,昇腾AI模型开发用户可以灵活调用Python API接口,对模型进行性能调优,并支持导出不同格式模型,在昇腾AI处理器上运行。
2025-04-20 13:46:45
1302
原创 昇腾平台上的pytorch模型训练和性能调优指南
在昇腾异构计算架构中,MindStudio Insight工具以时间线(Timeline)的呈现方式将训练/推理过程中的host、device上的运行详细情况平铺在时间轴上,直观呈现host侧的API耗时情况以及device侧的task耗时,并将host与device进行关联呈现,帮助用户快速识别host瓶颈或device瓶颈,同时提供各种筛选分类、专家建议等功能,支撑用户进行深度调优。训练脚本在运行的同时,会自动将脚本中的CUDA接口替换为昇腾AI处理器支持的NPU接口,整体过程为边训练边转换。
2025-02-17 23:07:19
2447
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅
2