CacheDataset的cache无法加载或加载失败及cuDNN error: CUDNN_STATUS_INTERNAL_ERROR解决办法

最新推荐文章于 2025-05-14 15:50:16 发布

原创最新推荐文章于 2025-05-14 15:50:16 发布 · 1k 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#python #pytorch

文章讲述了在运行3D代码时遇到的cache加载失败和CuDNN_STATUS_INTERNAL_ERROR问题。解决方案包括调整num_workers的值以适应计算资源，以及删除所有__pycache__文件夹以避免环境不匹配导致的问题。经过这些步骤，作者成功解决了问题并建议读者如遇类似问题可尝试相同方法。

前言

很多学习同志在跑3D代码的时候先将数据catche，然后再进行训练，可以大大加快网络的训练，本人在跑3D代码就遇到了cache加载失败以及cuDNN error: CUDNN_STATUS_INTERNAL_ERROR，下面我将详细介绍其解决办法。

1.cache无法加载或加载失败

当你使用CacheDataset时，可能出现无法加载，或者加载一会（未完全加载）就出现加载失败的情况，产生此现象的原因是因为你使用的线程太多了，有些默认的num_works的初始值设置比较大（因为你copy的代码对应的机构或单位计算资源丰富，所以他们设置得比较大），因此我修改了以下num_works的值为4：
在这里插入图片描述如果你减小num_works后发现cache数据的进度条比之前加载得更多，说明就是num_works的问题，如果计算资源不够就再减小num_works即可

2.cuDNN error: CUDNN_STATUS_INTERNAL_ERROR

如果数据cache加载完成后出现以上报错，其原因有以下三点：

内存不足
嵌入中的无效索引
cudatoolkit版本问题
出现后两种的情况基本上不可能，如果确实有问题请仔细检查。针对我的问题，我数据cache加载完成后还出现了此问题，开始我以为是内存不足，然后我采用free -h -w检查了一下：
我需要加载的数据存储大小我计算了一下只有64G，完全是足够的，而且此时数据cache加载已经完成了，也说明不是内存不够的原因，最后终于发现问题所在。

将整个工程中，所有文件夹下的__pycache__文件夹全部删除（一定要把所有文件夹中的全部删除）。这个文件是在训练的时候会自动生成，你下载别人的代码里面包含的pycache对应的是别人环境对应生成的，如果用你的环境再跑代码就会出问题。删除后再运行会自动生成你代码对应的pycache，删除后就能成功运行了：
在这里插入图片描述
如果觉得有用，点个赞给点支持，谢谢