- 博客(30)
- 收藏
- 关注
原创 MindSpore求导传入sens值时infer报错For 'MatMul', the input dimensions
执行MindSpore用例报错时,要善于利用报错信息去分析问题,也可以多看看官方教程。
2023-02-22 09:19:05
234
原创 【MindSpore】Ascend环境运行mindspore脚本报:Malloc device memory failed...
出现此类错误是因为运行网络脚本的设备被占用,当前MindSpore框架在Ascend环境只支持每张卡运行一个网络脚本。在Ascend环境安装MindSpore,运行网络脚本时,报如下错误。方法二:杀死占用设备的网络脚本(不建议)若判断程序为无用进程可选择杀死进程。查询是否存在其他程序占用设备。方法一:切换空闲设备。
2023-02-22 09:17:51
489
原创 ms 报错 ";ValueError: Please input the correct checkpoint
报错信息中,会把指定文件的绝对路径打印出来,可以根据打印出的信息,查看系统上有没有这个文件。报错信息为:加载checkpoint时,没有找到脚本中指定的文件。如果没有找到这个文件,会报ValueError错误。加载checkpoint时,会去找。
2023-02-22 09:17:10
309
原创 执行时遇到 For 'context.set_context', package type xxx support 'devic
技术干货-功能调试] 执行时遇到 For 'context.set_context', package type xxx support 'device_target' type xxx, but got xxx.")怎么办。
2023-02-22 09:16:22
441
原创 MindSpore PyNative模式下The pointer[top_cell_] is null错误
该错误根因隐藏较深,由于MindSpore框架对于单算子的执行只支持单线程操作,但是在自定义数据集__getitem__函数中使用了Tensor的运算操作,即会调到框架的算子执行,由于数据集的处理使用了多线程操作,因此导致整体的执行顺序错乱,出现空指针的错误。因此到看到空指针错误且错误在generator.cc中时,就是在数据集中错误使用了Tensor的运算操作。当出现该错误时,只是看到有一个指针为空了,但是python的调用栈却是在数据集里面。1、根据提示的调用栈信息,找到自定义数据集脚本中出错的位置。
2023-02-22 09:15:59
129
原创 ms报错";ValueError: Please input the correct checkpoint
checkpoint 用法可以参考: [保存与加载](https://www.mindspore.cn/docs/programming_guide/zh-CN/r1.6/save_and_load_models.html)加载checkpoint时,会去找`load_checkpoint`方法中`ckpt_file_name`参数指定的文件。报错信息中,会把指定文件的绝对路径打印出来,可以根据打印出的信息,查看系统上有没有这个文件。报错信息为:加载checkpoint时,没有找到脚本中指定的文件。
2023-02-22 09:15:14
127
原创 ms 加载checkpoint的时候报warning日志 ";xxx parameters in the net are not
技术干货-功能调试] ms 加载checkpoint的时候报warning日志 "xxx parameters in the net are not loaded."怎么办。
2023-02-22 09:14:31
135
原创 如何处理GPU训练过程中出现内存申请大小为0的错误【The memory alloc size is 0】
排查数据集中读取的数据是否有问题,可以通过context.set_context(save_graphs=True)保存图,然后观察*_validate*.ir这一类ir是否生成,如果未生成则说明图还未执行就报错了,基本上就确认了数据集读取数据出现问题了,可以自行排查或者联系MindData开发人员确认。该错误出现是由于内存申请的时候调用接口时传入的申请size为0,因此报错,碰到场景非常少,一般原因是数据集读取的数据是空导致size为0。
2023-02-22 09:13:23
262
原创 GPU训练提示分配流失败[cudaStreamCreate failed]
官方给出的版本配套要求:https://docs.nvidia.com/cuda/cuda-toolkit-release-notes/index.html。按照官网正确安装mindspore 执行GPU训练,提示“Failed to create CUDA stream | Error Number: 0”一般来说GPU流失败很有可能是由于Nvidia驱动和cuda版本不匹配,根据官方版本配套要求,重新安装对应版本的Nvidia驱动,即可启动训练。nvidia驱动版本需要高于cuda版本。
2023-02-22 09:12:34
666
原创 [LoadTask] Distribute Task Failed 报错解决
复制在分布式运行环境中,需要bash启动脚本和python文件,分别如下:将下述的bash脚本另存为 run.sh复制将下述的脚本命名为run.py复制对应的rank_table如下,命名为rank_table_8pcs.json复制假设本地拥有8个Ascend 910设备,那么可以设置启动命令如下复制复制。
2023-02-22 09:11:42
311
原创 MindSpore报错 `half_pixel_centers`=True only support in Ascend
定位报错问题的步骤:1、找到报错的用户代码行:* resize_bilinear = ops.ResizeBilinear((5, 5), half_pixel_centers=True)*;2、 根据日志报错信息中的关键字,缩小分析问题的范围Currently;
2023-02-21 11:24:42
78
原创 MindSpore报错 ValueError: Minimum inputs size 0 does not match...
定位报错问题的步骤:1、找到报错的用户代码行:;2、 根据日志报错信息中的关键字,缩小分析问题的范围;3、需要重点关注变量定义、初始化的正确性。
2023-02-21 11:22:47
85
原创 MindSpore报错: Conv2D输入shape填充后的高和宽必须大于卷积核的高和宽
定位报错问题的步骤:1、找到报错的用户代码行:;2、 根据日志报错信息中的关键字,缩小分析问题的范围;3、需要重点关注变量定义、初始化的正确性。
2023-02-21 11:21:25
213
原创 MindSpore报错TypeError: For 'TopK', the type of 'x' should be...
定位报错问题的步骤:1、找到报错的用户代码行:;2、 根据日志报错信息中的关键字,缩小分析问题的范围;3、需要重点关注变量定义、初始化的正确性。
2023-02-21 11:20:48
73
原创 MindSpore报错 Ascend 环境下ReduceMean不支持8维及其以上的输入
定位报错问题的步骤: 1、找到报错的用户代码行:out = net(x);2、根据日志报错信息中的关键字,缩小分析问题的范围:should be in the range of [0, 8], but actually is [10];3、需要重点关注变量定义、初始化的正确性。
2023-02-21 11:19:30
80
原创 MindSpore报错: `seed2` in `StandardNormal` should be int and >;=0
定位报错问题的步骤:1、找到报错的用户代码行:;2、 根据日志报错信息中的关键字,缩小分析问题的范围tseed2in;3、需要重点关注变量定义、初始化的正确性。
2023-02-21 11:18:46
72
原创 MindSpore报错ValueError:` padding_idx` in `Embedding超出范围的报错
定位报错问题的步骤:1、找到报错的用户代码行:;2、 根据日志报错信息中的关键字,缩小分析问题的范围inEmbeddingint。
2023-02-21 11:18:08
129
原创 MindSpore报错 task_fail_info or current_graph_ is nullptr
定位报错问题的步骤:1、找到报错的用户代码行:;2、 根据日志报错信息中的关键字,缩小分析问题的范围* Execute TaskFailCallback failed. task_fail_info or current_graph_ is nullptr*;
2023-02-21 11:14:29
98
原创 MindSpore报错 For 'CellList', each cell should be subclass of Cell
定位报错问题的步骤:1、找到报错的用户代码行:;2、 根据日志报错信息中的关键字,缩小分析问题的范围;3、需要重点关注变量定义、初始化的正确性。
2023-02-21 11:13:19
69
原创 MindSpore报错 For primitive[TensorSummary], the v rank 必须大于等于0
定位报错问题的步骤:1、找到报错的用户代码行:* summary_net = SummaryNet()(x, y)*;2、 根据日志报错信息中的关键字,缩小分析问题的范围* For primitive[TensorSummary], the v rank must be greater than or equal to 1, but got 0.*;3、需要重点关注变量定义、初始化的正确性。
2023-02-21 11:08:07
78
原创 cv2保存图片类型错误执行报错cv2. error: OpenCV(4.6.0) :-1: error: (-5:Bad argument) in function ‘imwrite‘ - img i
硬件环境(Ascend/GPU/CPU): GPU软件环境:– MindSpore 版本: 1.7.0执行模式: 静态图(GRAPH) – Python 版本: 3.7.6– 操作系统平台: linux。
2023-02-20 17:32:20
3601
原创 cv2.imwrite保存Tensor引起类型报错:cv2.error: OpenCV(4.6.0) :-1: error: (-5:Bad argument) in function ‘imwrit
硬件环境(Ascend/GPU/CPU): GPU软件环境:– MindSpore 版本: 1.7.0执行模式: 静态图(GRAPH) – Python 版本: 3.7.6– 操作系统平台: linux。
2023-02-20 17:32:06
4192
原创 通道顺序错误引起matplotlib.image.imsave执行报错:raise ValueError(“Third dimension must be 3 or 4“)
硬件环境(Ascend/GPU/CPU): GPU软件环境:– MindSpore 版本: 1.7.0执行模式: 静态图(GRAPH) – Python 版本: 3.7.6– 操作系统平台: linux。
2023-02-20 17:30:41
1325
原创 MindSpore报错";RuntimeError: Unexpected error. Invalid data.";
定位报错问题的步骤: 1、找到报错的用户代码行:writer.write_raw_data(data);2、根据日志报错信息中的提示:“Invalid data, the number of schema should be positive but got: 0. Please check the input schema.”定位到数据输入部分可能出现问题。
2023-02-20 17:27:56
164
原创 图像类型错误导致执行报错:TypeError: img should be PIL image or NumPy array. Got <class ‘list‘>.
硬件环境(Ascend/GPU/CPU): GPU软件环境:– MindSpore 版本: 1.7.0执行模式: 动态图(PYNATIVE_MODE) – Python 版本: 3.7.6– 操作系统平台: linux。
2023-02-20 17:27:49
1060
原创 [MindSpore]报错RuntimeError: Exception thrown from PyFunc.
定位报错问题的步骤: 1、找到报错的用户代码行:for data in DS.create_dict_iterator():;2、根据日志报错信息中的提示,定位到自定义数据返回时出现问题。GeneratorDataset返回与定义的columns字段不一致,导致报错。3、自定义数据集创建时返回与定义的字段保持一致。
2023-02-20 17:26:41
145
原创 MindSpore报错";GeneratorDataset's num_workers=8, this value is ...";
1.可根据报错信息的提示进行问题定位,此案例为CPU核数问题,可在官网教程与开源的MindSpore文档中搜寻设置CPU核数的方法。2.目前MindSpore提供了一种自动数据调优的工具——Dataset AutoTune,用于在训练过程中根据环境资源的情况自动调整数据处理管道的并行度,此过程中会自动检测硬件中CPU的核数进行自适应配置。3.MindSpore中config模块能够设置或获取数据处理的全局配置参数。
2023-02-20 17:24:07
76
原创 MindSpore报错";RuntimeError: Unable to data from Generator..";
1、找到报错的用户代码行:for data in dataset.create_dict_iterator():;2、根据报错信息提示,无法从GeneratorDataset获取数据,检查是否在自定义数据的时候就出现问题。打印运行中的过程数据,发现第一个epoch数据读取完后,真实读取的数据条数与__len__是相等的,没有问题。但由于没有清零操作,在第二个epoch预取时self.__iter >= self.__iterations,循环结束,导致第二个epoch取不到数据报错。
2023-02-20 17:22:59
55
原创 MindSpore报错";TypeError: parse() missing 1 required positional.";
例如:有 xxDataset -> map -> map -> batch 这样的数据处理流程。只保留 xxDataset,然后运行下脚本,查看是否报错;保留 xxDataset -> map,然后运行下脚本,查看是否报错;保留 xxDataset -> map -> map,然后运行下脚本,查看是否报错;保留 xxDataset -> map -> map -> batch,然后运行下脚本,查看是否报错;按照上述的方法,可定位到是哪个map/batch出错了。
2023-02-20 17:17:29
185
原创 MindSpore报错";RuntimeError: Invalid data, Page size.";
1.设置表示存储数据的区域的页面的大小,这些区域分为两种类型:row page和blob page。页面越大,可以存储的数据就越多。2.不设置pagesize的时候,默认可储存样本大小为32MB,如果样本的大小大于默认大小,用户需要调用API来设置适当的大小。3.pagesize可调节范围在321024(32KB)至256。
2023-02-20 17:14:11
50
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人