自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(8)
  • 收藏
  • 关注

原创 昇腾MindSpeed特性开发指南

MindSpeed 是针对华为昇腾设备的大模型加速库。大模型训练是一种非常复杂的过程,涉及到许多技术和挑战,其中大模型训练需要大量的显存资源是一个难题,对计算卡提出了不小的挑战。为了在单个计算卡显存资源不足时,可以通过多张计算卡进行计算,业界出现了类似 Megatron、DeepSpeed 等第三方大模型加速库,对模型、输入数据等进行切分并分配到不同的计算卡上,最后再通过集合通信对结果进行汇总。

2025-05-27 17:43:28 1024

原创 昇腾卡上模型训练过程中出现grad_norm为NAN的问题定位方法

grad_norm通常用模型参数梯度的范数表示,常用二范数计算;所以grad_norm出现NAN值先排查模型参数的梯度是否存在NAN值;Megatron-LM中grad_norm计算方法是MegatronOptimizer类中的clip_grad_norm方法(megatron/optimizer/optimizer.py文件中)

2025-05-27 17:12:06 875

原创 昇腾卡上训练模型遇到报错rtEnableP2P failed的解决方法

因此,模型初始化各网络层时的npu()数据 和 模型加载的ckpt都在0卡上,但训练时产生的数据都在各个卡上,一起计算时就会出现0卡和其它卡之间的通信拷贝。每张卡pcie有16个atu资源,每张卡通信时都占用2个atu(一个发送,一个接受),意味着同时最多只能和8个device p2p enable.组网时HCCL又限制了只能在当前环所有卡,和另外一个环里的一张卡,比如0和8,1和9。4)排查模型代码,发现模型初始化有很多.cuda操作,通过transfer_to_npu加载了到了npu:0上。

2025-05-26 20:07:42 405

原创 Qwen3在昇腾卡上的训练和推理部署

Qwen3是Qwen系列中最新一代的大型语言模型,提供了密集和混合专家(MoE)模型的全面套件。思维模式(用于复杂的逻辑推理、数学和编码)和非思维模式(用于高效、通用的对话)在单个模型内无缝切换,确保跨各种场景的最佳性能。增强了推理能力在数学、代码生成和常识逻辑推理方面超过了之前的QwQ(思维模式)和Qwen2.5(非思维模式)。人类偏好调整,擅长创意写作、角色扮演、多轮对话和指令跟随,提供更自然、更吸引人、更沉浸式的对话体验。

2025-05-15 18:04:27 3624

原创 昇腾计算图融合算法开发教程

本教程端到端教会用户完成:将Pytorch训好的模型转化为昇腾计算图表达,然后自定义规则对计算图做融合优化,最后将优化后的计算图做编译运行,从而针对性的深度优化用户自定义模型的推理性能。Pytorch模型转化为onnx格式return xreturn xreturn xif stride!resnet50_model = torch.load('resnet50.pth', map_location='cpu') #根据实际文件路径名称修改。

2025-05-06 17:53:51 401

原创 昇腾大模型量化推理--ModelSlim量化工具使用

MindStudio ModelSlim,昇腾模型压缩工具,一个以加速为目标、压缩为技术、昇腾为根本的亲和压缩工具。支持训练加速和推理加速,包括模型低秩分解、稀疏训练、训练后量化、量化感知训练等功能,昇腾AI模型开发用户可以灵活调用Python API接口,对模型进行性能调优,并支持导出不同格式模型,在昇腾AI处理器上运行。

2025-04-20 13:46:45 1302

原创 昇腾平台上的pytorch模型训练和性能调优指南

在昇腾异构计算架构中,MindStudio Insight工具以时间线(Timeline)的呈现方式将训练/推理过程中的host、device上的运行详细情况平铺在时间轴上,直观呈现host侧的API耗时情况以及device侧的task耗时,并将host与device进行关联呈现,帮助用户快速识别host瓶颈或device瓶颈,同时提供各种筛选分类、专家建议等功能,支撑用户进行深度调优。训练脚本在运行的同时,会自动将脚本中的CUDA接口替换为昇腾AI处理器支持的NPU接口,整体过程为边训练边转换。

2025-02-17 23:07:19 2447

原创 DeepSeek-V3/R1在昇腾硬件上的量化测试指南

可以帮助开发者在昇腾硬件上快速部署DeepSeek-V3/R1量化模型

2025-02-08 22:01:00 3319 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除