- 博客(1049)
- 收藏
- 关注
原创 Mindspore官网《ResNet50网络进行图像分类》无法运行
【摘要】在香橙派AIPRO20T上运行MindSpore ResNet50训练任务时出现错误,原因是早期版本(1.7)不支持该设备。建议解决方案包括:1)升级至MindSpore 2.5.0和配套CANN 8.0.RC3alpha003;2)更换为最新迁移学习教程代码;3)注意12GB内存可能不足需配置swap空间;4)建议使用终端直接运行而非Jupyter Notebook;5)可设置环境变量MS_DEV_FORCE_ACL=1和MS_ENABLE_GE=1解决潜在问题。由于开发板性能限制,训练启动可能需
2025-06-22 17:30:44
282
原创 mindyolo怎么继续训练,比如我训练了300轮后,效果不理想,我想继续在300轮的基础上继续训练,调整参数
摘要:关于MindYolo模型训练中断后如何继续训练的问题,解决方法是将之前保存的ckpt检查点文件作为预训练模型重新加载启动。这样既可以在训练中断后恢复训练,也能在完成训练后在此基础上进行进一步训练,无需从头开始。该方法简单有效,只需指定检查点文件路径即可实现连续训练。
2025-06-22 17:28:56
88
原创 MindSpore Lite模型加载报错
摘要:用户在使用MindSpore Lite将YOLOv8 ONNX模型转换为MINDIR格式后,在加载模型时出现"build_from_file failed"错误。错误信息显示模型转换过程中子图推理失败(ret=-500),可能是算子兼容性问题。环境配置为CPU、Ubuntu 20.04、MindSpore Lite 2.4.10和Python 3.10。官方建议使用MindYolo工具链进行训练和转换,因其对YOLO系列模型有更好的兼容性支持。用户可尝试用MindYolo导出的MI
2025-06-22 17:26:06
726
原创 mindformers使用mindrecord数据集格式,是否可以不进行shuffle,数据集的columns是否可以支持attention_mask和eod
摘要: 针对mindformers1.3.0版本制作mincreocord数据集时,用户希望支持attention_mask和eod字段的问题。解决方案指出mindrecord作为数据容器,其内容可通过自定义schema灵活定义。示例展示了如何创建包含file_name、label和data字段的schema,并强调add_index可加速读取。通过FileWriter的add_schema方法,用户可自由扩展字段(如添加attention_mask),满足多样化需求。最终通过write_raw_data和
2025-06-22 17:24:10
412
原创 MindSpore环境测试存在Warning
在AutoDL租用的昇腾910B的开发机上,新建了Python 3.10虚拟环境,使用 https://www.mindspore.cn/install 中的安装指南安装了MindSpore 2.5.0,在进行环境测试时,存在几条Warning信息,分别为来自Numpy的Warning和来自DEVICE的Warning,这两种Warning产生的来源是什么,是否有方法可以解决这些问题?
2025-06-22 17:22:46
217
原创 基于mindspore实现知识图谱增强多模态类比推理项目 遇到的mindspore.ops.matmul函数问题
摘要:在基于MindSpore 2.2.0实现知识图谱增强多模态类比推理项目时,模型首次传播能计算loss,但第二次传播时BERT层Attention_score出现维度不匹配错误。报错显示query_layer(16,12,96,64)与key_layer_transposed(16,12,64,96)矩阵乘法维度冲突(768 vs 3072)。建议开启动态图同步模式(ms.set_context(mode=1,pynative_synchronize=True))进行调试,或在关键位置打印张量shape
2025-06-22 17:19:45
568
原创 有没有精度在76以上的mindspore模型的ckpt或者mindir文件?
摘要: 对于精度76以上的MindSpore模型,图像分类推荐使用MindCV套件(GitHub/MindSpore官网),其中多个模型在标准数据集上Top1准确率超过0.76,支持自动下载权重。目标检测可参考MindYOLO(GitHub),提供CKPT和MINDIR文件下载,但当前数据集MAP未达0.76。模型文件可通过项目README或官网资源库获取。
2025-06-22 17:17:28
136
原创 mindformers制作的bin格式数据集加载怎么能顺序遍历读取
摘要:在使用mindformers1.3.0的bin数据集训练时,发现数据读取存在随机采样无法关闭、数据重复等问题。当前配置采用IndexedDataLoader,设置了shuffle=False、num_parallel_workers=8、python_multiprocessing=False和repeat=1,但仍无法实现顺序遍历所有数据。建议检查MultiSourceDataLoader.py的实现逻辑,可能需要调整数据采样策略或修改底层代码来实现顺序读取。
2025-06-22 17:15:54
148
原创 mindspore的CUDA版本是不是以后不会再更新了?最高锁定在11.6了?
mindspore的CUDA版本是不是以后不会再更新了?最高锁定在11.6了?后续就全力发展昇腾版本了?
2025-06-22 17:13:29
199
原创 如何使用npu加速模型训练
现有一台Atlas800(3010)的服务器,使用2.5.0版本的mindspore,但在代码中设置设备时无法选择ascend,请问我如何才能使用npu资源。
2025-06-22 17:07:59
254
原创 mindspore 2.6 nightly gpu安装报错
参照按安装指南:https://www.mindspore.cn/install/基础环境:CUDA 11.6具体如图:执行测试过程中一直报错,请问这是哪里的问题呢?或者还需要配置其它什么东西?
2025-06-22 17:06:06
168
原创 openEuler 22.03安装MindSpore验证失败
根据该网站步骤安装: https://www.mindspore.cn/install/安装方式如图:CANN已安装:GCC已安装:python版本为3.9:由于在openEuler用户下输入npu-smi info会报错:而在root环境下正常:所以分别尝试了在openEuler和root用户下安装MindSpore,执行python -c "import mindspore;mindspore.run_check()"命令时报错,完整报错见附件。
2025-06-22 17:02:58
193
原创 mindformers1.2_mindspore2.3:20240722镜像容器不能安装第三方软件库
看错误提示有两个可能:1.那个GPG签名公钥啥的确实了,如果是这个问题,上网搜一下具体手动添加设置的方法,有很多文章;2.是不是apt源配置有问题,因为下面那些请求的链接,直接用浏览器打开也是404,检查下apt源配置,可以网上搜一下arm的原配置。
2025-06-22 16:59:12
471
原创 静态图模式报错 one of the variables needed for gradient computation has been modified by an inplace operati
摘要:当遇到"梯度计算变量被就地操作修改"的错误时,可能是对不支持梯度计算的Tensor进行了直接修改(如t[:2]=3)。排查方法包括检查代码中类似操作,或通过动态图/静态图混合调试:在代码段上添加@jit标签,使特定方法运行静态图,其余部分保持动态图,逐步定位出错位置。这种方法比单纯依赖静态图错误提示更有效。
2025-06-22 16:54:51
188
原创 初始化自定义模型时间过长
这是我初始化模型的代码,我的模型是1.3B的,加载的代码如下:其中model=GLAForCausalLM这一句代码要执行几百秒,请问一下正常吗。还有一个问题就是我在推理时开了静态图模式的推理速度还不如直接用动态图模式,是有什么操作没做好吗。
2025-04-28 17:10:27
423
原创 mindyolo训练结果很差
500张照片训练了500轮的效果太差了,请教我是哪里有问题?用的mindspore2.2.11. mindyolo0.3. yolov7cup训练。
2025-04-28 17:09:05
160
原创 部署自己搭建的大模型应该部署成静态模型还是依然使用动态模型推理
在华为的NPU上实现了一个pytorch框架的大模型,可以正常推理,但是每次推理的时候首先要进行很长时间的编译,然后在推理的时候推理速度也很慢,不满足实时推理的要求。现在想要提升推理速度,有两个思路。思路1:将模型转换成为静态模型,由于是静态模型,KV cache自然就不能直接用了,需要将其固定长度之后转换为模型输入的一部分去在推理过程中不断维护,然后将修改后的静态模型在NPU上运行,静态模型肯定会比pytorch这样的动态模型速度快很多。
2025-04-28 17:06:54
392
原创 执行graphlearning下example样例vc_gcn_datanet时,出现soc版本不支持bf16 / fp32计算的问题
执行官方graphlearning库example样例vc_gcn_datanet时,报错。
2025-04-28 17:05:47
140
原创 使用2机8卡一共16张卡进行resnet50分布式训练有问题
当前我们这边在执行一个mindspore的模型resnet50的时候发现一个问题,使用2机四卡一共8张卡执行没啥问题,使用2机8卡一共16张卡的时候发现两个节点都跑了批次,且loss值不一样,请问这个是什么原因。使用预置mindspore引擎,执行两机共16卡分布式训练作业,预期只有一个节点跑批次,实际两个节点都跑了批次,且loss值不一样。
2025-04-28 17:04:57
195
原创 MindSpore Ascend GatherNd 算子问题
你这边报错确定是ops.gather_nd算子引发的吗,看报错信息感觉也不像ops.gather_nd引发的?目前运行的是静态图吗,如果是静态图,可以先改成动态图,并设置动态图同步模式运行,看看有没有报错,有错误的话可能可以获得更准确的错误信息;动态图默认异步模式,或者静态图下,报错有时候堆栈定位不是很准;如果动态图正常,静态图出错,那有可能是图编译上的bug了。
2025-04-28 17:03:55
541
原创 jupyter notebook中无法加载Ascend
如果你在可以加载昇腾的终端里用pip方式安装了jupyter lab,然后用命令jupyter lab --no-browser --ip=0.0.0.0 --port=8080 --notebook-dir=/ --allow-root 这样启动,应该是没问题的;应该是jupyter 中缺少昇腾cann的那些环境变啦你给,这和jupyter的安装启动方式有关;
2025-04-28 17:02:34
294
原创 5090D不支持32位CUDA ,那么还支持跑mindspore吗
英伟达50系列的显卡不再支持32位CUDA,我不清楚对mindspore有什么影响?或者说mindspore什么版本开始才不受影响。目前我使用的是mindspore2.2.14,不知道能不能用英伟达50系列的显卡进行训练。
2025-04-28 17:00:36
288
原创 MindSpore在线推理Rensent50出现报错
硬件版本:310B1--RC模式系统:Ubuntn 22.04cann: 8.0.rc3.alpha002测试样例:https://www.mindspore.cn/docs/zh-CN/r2.5.0/orange_pi/index.htmlResnet50-在线推理。推理结果正确,但是会出现mindSpore的错误。请帮忙分析MindSpore是否支持在310B上跑,这个报错是否有影响。应该没影响,这个错误好像是notebook的原因造成的,我在终端里直接运行代码没有问题;可能只是个警告性质的提示,能出结
2025-04-28 16:59:47
169
原创 MindSpore安装运行完后,验证安装命令执行报错
1、环境介绍硬件结构:操作系统:内核:python版本:3.10.122. 问题描述安装完MindSpore,使用python -c "import mindspore;命令验证,报如下错误。
2025-04-28 16:58:34
173
原创 能获得流水线并行中bubble情况的工具
我需要调优pipeline parallel的一些parameters,想知道bubble情况,有没有一些工具可以用?
2025-04-28 16:56:49
178
原创 mindspore_cpu_py39 2.2.12版本下,使用Profiler()函数,报错RuntimeError: The output path of profiler only support
直接报错RuntimeError: The output path of profiler only supports alphabets(a-zA-Z), digit(0-9) or {'-', '_', '.', '/', '@'}, but got the absolute path= E:\MindsporePrj\PreTrain_ms\data。
2024-11-15 11:07:32
352
原创 多版本CUDA Toolkit共存时安装MindSpore的疑问
一、背景:1、在Linux系统的服务器上,目前已经安装有NVIDIA GPU驱动535.183.01版本和CUDA Toolkit 12.2版本,CUDA Toolkit默认的安装路径是/usr/local/cuda和/usr/local/cuda-12.2,该系统暂时无法使用Docker容器。
2024-11-15 11:05:44
524
原创 在mindspore中如何使用hccl通信
使用的是8张910的服务器,在NPU之间使用hccl通信,在过程中需要1个npu向别的Npu发送一些tensor(暂时先不管模型训练那些),这样的过程如何用python程序表示,并行启动方式应该选择msrun还是ranktable启动呢?
2024-11-15 11:01:49
257
原创 mindspore单机多卡算子使用方式
这是mindspore的通信算子里的例子,我想知道这样的程序我在一个8卡910的服务器上如何运行,因为send的功能是我的项目需要的,我在网上看到很多包括msrun启动,ranktable一类的,不知道具体使用哪个?
2024-11-15 10:59:53
347
原创 昇思MindSpore训练yolov5-v5.0的物体检测模型
请问可以使用昇思MindSpore训练yolov5-v5.0的物体检测模型吗?·使用昇思MindSpore需要配置哪些硬件设备?
2024-11-15 10:57:53
377
原创 如何将权重从 huggingface 格式转化为 AscendSpeed 格式
按照ModelZoo里面的LLAMA2-34B的部署教程,其中有一步将权重从 huggingface 格式转化为 AscendSpeed 格式,tools下面这个转换py文件在哪找,所下载的AscendSpeed文件里没有tools文件夹。
2024-11-15 10:53:58
275
原创 如何知道一个训练任务中rank、stream、task的关系
如果得到一个训练任务有哪些rank,然后一个rank有哪些stream,一个stream有哪些task?同时如何知道哪两个task有通信呢?是否可以通过日志来获取这些信息呢?
2024-11-15 10:50:17
279
原创 MindSpore_lite与CANN(AscendCL)部署有什么差异?
使用mindspore训练的模型直接使用mindspore_lite与将mindspore训练的模型转换成om模型直接使用CANN(AscendCL)进行部署有何区别?
2024-11-15 10:48:51
822
原创 训练Yolov5目标模型报错
在CPU上训练Mindyolo 的 yolov5s目标检测模型,训练我自己的数据集,有4个类别,使用官方的预训练模型,训练的时候报错如下。
2024-11-08 17:26:27
287
原创 如何获取MindSpore镜像
参考安装文档如下:文章中说MindSpore的Docker镜像托管在上。实际在容器镜像中心找不到mindspore的镜像,是找的地方不对?还是权限的问题?
2024-11-08 17:18:01
486
原创 算子切分策略:()和(1,),分别表示怎么样的切分策略
上面代码第二个输入张量的切分策略(),表示第二个输入张量不进行切分吗?上面代码第二个输入张量的切分策略(1,),表示第二个输入张量不进行切分吗?
2024-11-08 17:16:46
225
MindSpore报错解决地图2022.10.21
2022-10-27
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人