小乐快乐-优快云博客

原创 Mindspore官网《ResNet50网络进行图像分类》无法运行

【摘要】在香橙派AIPRO20T上运行MindSpore ResNet50训练任务时出现错误，原因是早期版本(1.7)不支持该设备。建议解决方案包括：1)升级至MindSpore 2.5.0和配套CANN 8.0.RC3alpha003；2)更换为最新迁移学习教程代码；3)注意12GB内存可能不足需配置swap空间；4)建议使用终端直接运行而非Jupyter Notebook；5)可设置环境变量MS_DEV_FORCE_ACL=1和MS_ENABLE_GE=1解决潜在问题。由于开发板性能限制，训练启动可能需

2025-06-22 17:30:44 282

原创 mindyolo怎么继续训练，比如我训练了300轮后，效果不理想，我想继续在300轮的基础上继续训练，调整参数

摘要：关于MindYolo模型训练中断后如何继续训练的问题，解决方法是将之前保存的ckpt检查点文件作为预训练模型重新加载启动。这样既可以在训练中断后恢复训练，也能在完成训练后在此基础上进行进一步训练，无需从头开始。该方法简单有效，只需指定检查点文件路径即可实现连续训练。

2025-06-22 17:28:56 88

原创 MindSpore Lite模型加载报错

摘要：用户在使用MindSpore Lite将YOLOv8 ONNX模型转换为MINDIR格式后，在加载模型时出现"build_from_file failed"错误。错误信息显示模型转换过程中子图推理失败（ret=-500），可能是算子兼容性问题。环境配置为CPU、Ubuntu 20.04、MindSpore Lite 2.4.10和Python 3.10。官方建议使用MindYolo工具链进行训练和转换，因其对YOLO系列模型有更好的兼容性支持。用户可尝试用MindYolo导出的MI

2025-06-22 17:26:06 726

原创 mindformers使用mindrecord数据集格式，是否可以不进行shuffle，数据集的columns是否可以支持attention_mask和eod

摘要：针对mindformers1.3.0版本制作mincreocord数据集时，用户希望支持attention_mask和eod字段的问题。解决方案指出mindrecord作为数据容器，其内容可通过自定义schema灵活定义。示例展示了如何创建包含file_name、label和data字段的schema，并强调add_index可加速读取。通过FileWriter的add_schema方法，用户可自由扩展字段（如添加attention_mask），满足多样化需求。最终通过write_raw_data和

2025-06-22 17:24:10 412

原创 MindSpore环境测试存在Warning

在AutoDL租用的昇腾910B的开发机上，新建了Python 3.10虚拟环境，使用 https://www.mindspore.cn/install 中的安装指南安装了MindSpore 2.5.0，在进行环境测试时，存在几条Warning信息，分别为来自Numpy的Warning和来自DEVICE的Warning，这两种Warning产生的来源是什么，是否有方法可以解决这些问题？

2025-06-22 17:22:46 217

原创基于mindspore实现知识图谱增强多模态类比推理项目遇到的mindspore.ops.matmul函数问题

摘要：在基于MindSpore 2.2.0实现知识图谱增强多模态类比推理项目时，模型首次传播能计算loss，但第二次传播时BERT层Attention_score出现维度不匹配错误。报错显示query_layer(16,12,96,64)与key_layer_transposed(16,12,64,96)矩阵乘法维度冲突（768 vs 3072）。建议开启动态图同步模式(ms.set_context(mode=1,pynative_synchronize=True))进行调试，或在关键位置打印张量shape

2025-06-22 17:19:45 568

原创有没有精度在76以上的mindspore模型的ckpt或者mindir文件？

摘要：对于精度76以上的MindSpore模型，图像分类推荐使用MindCV套件（GitHub/MindSpore官网），其中多个模型在标准数据集上Top1准确率超过0.76，支持自动下载权重。目标检测可参考MindYOLO（GitHub），提供CKPT和MINDIR文件下载，但当前数据集MAP未达0.76。模型文件可通过项目README或官网资源库获取。

2025-06-22 17:17:28 136

原创 mindformers制作的bin格式数据集加载怎么能顺序遍历读取

摘要：在使用mindformers1.3.0的bin数据集训练时，发现数据读取存在随机采样无法关闭、数据重复等问题。当前配置采用IndexedDataLoader，设置了shuffle=False、num_parallel_workers=8、python_multiprocessing=False和repeat=1，但仍无法实现顺序遍历所有数据。建议检查MultiSourceDataLoader.py的实现逻辑，可能需要调整数据采样策略或修改底层代码来实现顺序读取。

2025-06-22 17:15:54 148

原创 mindspore的CUDA版本是不是以后不会再更新了？最高锁定在11.6了？

mindspore的CUDA版本是不是以后不会再更新了？最高锁定在11.6了？后续就全力发展昇腾版本了？

2025-06-22 17:13:29 199

原创如何使用npu加速模型训练

现有一台Atlas800(3010)的服务器，使用2.5.0版本的mindspore，但在代码中设置设备时无法选择ascend，请问我如何才能使用npu资源。

2025-06-22 17:07:59 254

原创 mindspore 2.6 nightly gpu安装报错

参照按安装指南：https://www.mindspore.cn/install/基础环境：CUDA 11.6具体如图：执行测试过程中一直报错，请问这是哪里的问题呢？或者还需要配置其它什么东西？

2025-06-22 17:06:06 168

原创 openEuler 22.03安装MindSpore验证失败

根据该网站步骤安装： https://www.mindspore.cn/install/安装方式如图：CANN已安装：GCC已安装：python版本为3.9：由于在openEuler用户下输入npu-smi info会报错：而在root环境下正常：所以分别尝试了在openEuler和root用户下安装MindSpore，执行python -c "import mindspore;mindspore.run_check()"命令时报错，完整报错见附件。

2025-06-22 17:02:58 193

原创 mindformers1.2_mindspore2.3:20240722镜像容器不能安装第三方软件库

看错误提示有两个可能：1.那个GPG签名公钥啥的确实了，如果是这个问题，上网搜一下具体手动添加设置的方法，有很多文章；2.是不是apt源配置有问题，因为下面那些请求的链接，直接用浏览器打开也是404，检查下apt源配置，可以网上搜一下arm的原配置。

2025-06-22 16:59:12 471

原创 mindspore安装后，运行验证命令时报: 找不到指定的模块

步骤一：按照mindspore社区提示，完成对应的mindspore下载及安装。

2025-06-22 16:57:33 201

原创静态图模式报错 one of the variables needed for gradient computation has been modified by an inplace operati

摘要：当遇到"梯度计算变量被就地操作修改"的错误时，可能是对不支持梯度计算的Tensor进行了直接修改（如t[:2]=3）。排查方法包括检查代码中类似操作，或通过动态图/静态图混合调试：在代码段上添加@jit标签，使特定方法运行静态图，其余部分保持动态图，逐步定位出错位置。这种方法比单纯依赖静态图错误提示更有效。

2025-06-22 16:54:51 188

原创初始化自定义模型时间过长

这是我初始化模型的代码，我的模型是1.3B的，加载的代码如下：其中model=GLAForCausalLM这一句代码要执行几百秒，请问一下正常吗。还有一个问题就是我在推理时开了静态图模式的推理速度还不如直接用动态图模式，是有什么操作没做好吗。

2025-04-28 17:10:27 423

原创 mindyolo训练结果很差

500张照片训练了500轮的效果太差了，请教我是哪里有问题？用的mindspore2.2.11. mindyolo0.3. yolov7cup训练。

2025-04-28 17:09:05 160

原创 MindSpore2.2版本找不到可用的GPU

为什么找不到可用的GPU 版本不对报错信息会是版本不对啊。

2025-04-28 17:08:19 166

原创部署自己搭建的大模型应该部署成静态模型还是依然使用动态模型推理

在华为的NPU上实现了一个pytorch框架的大模型，可以正常推理，但是每次推理的时候首先要进行很长时间的编译，然后在推理的时候推理速度也很慢，不满足实时推理的要求。现在想要提升推理速度，有两个思路。思路1：将模型转换成为静态模型，由于是静态模型，KV cache自然就不能直接用了，需要将其固定长度之后转换为模型输入的一部分去在推理过程中不断维护，然后将修改后的静态模型在NPU上运行，静态模型肯定会比pytorch这样的动态模型速度快很多。

2025-04-28 17:06:54 392

原创执行graphlearning下example样例vc_gcn_datanet时，出现soc版本不支持bf16 / fp32计算的问题

执行官方graphlearning库example样例vc_gcn_datanet时，报错。

2025-04-28 17:05:47 140

原创使用2机8卡一共16张卡进行resnet50分布式训练有问题

当前我们这边在执行一个mindspore的模型resnet50的时候发现一个问题，使用2机四卡一共8张卡执行没啥问题，使用2机8卡一共16张卡的时候发现两个节点都跑了批次，且loss值不一样，请问这个是什么原因。使用预置mindspore引擎，执行两机共16卡分布式训练作业，预期只有一个节点跑批次，实际两个节点都跑了批次，且loss值不一样。

2025-04-28 17:04:57 195

原创 MindSpore Ascend GatherNd 算子问题

你这边报错确定是ops.gather_nd算子引发的吗，看报错信息感觉也不像ops.gather_nd引发的？目前运行的是静态图吗，如果是静态图，可以先改成动态图，并设置动态图同步模式运行，看看有没有报错，有错误的话可能可以获得更准确的错误信息；动态图默认异步模式，或者静态图下，报错有时候堆栈定位不是很准；如果动态图正常，静态图出错，那有可能是图编译上的bug了。

2025-04-28 17:03:55 541

原创 jupyter notebook中无法加载Ascend

如果你在可以加载昇腾的终端里用pip方式安装了jupyter lab，然后用命令jupyter lab --no-browser --ip=0.0.0.0 --port=8080 --notebook-dir=/ --allow-root 这样启动，应该是没问题的；应该是jupyter 中缺少昇腾cann的那些环境变啦你给，这和jupyter的安装启动方式有关；

2025-04-28 17:02:34 294

原创 5090D不支持32位CUDA ，那么还支持跑mindspore吗

英伟达50系列的显卡不再支持32位CUDA，我不清楚对mindspore有什么影响？或者说mindspore什么版本开始才不受影响。目前我使用的是mindspore2.2.14，不知道能不能用英伟达50系列的显卡进行训练。

2025-04-28 17:00:36 288

原创 MindSpore在线推理Rensent50出现报错

硬件版本：310B1--RC模式系统：Ubuntn 22.04cann: 8.0.rc3.alpha002测试样例：https://www.mindspore.cn/docs/zh-CN/r2.5.0/orange_pi/index.htmlResnet50-在线推理。推理结果正确，但是会出现mindSpore的错误。请帮忙分析MindSpore是否支持在310B上跑，这个报错是否有影响。应该没影响，这个错误好像是notebook的原因造成的，我在终端里直接运行代码没有问题；可能只是个警告性质的提示，能出结

2025-04-28 16:59:47 169

MindSpore报错解决地图2022.10.21

空空如也