报错:RuntimeError: CUDA error: all CUDA-capable devices are busy or unavailable

本文探讨了在PyTorch中使用DataParallel进行多GPU并行运算时遇到的错误,并分享了一种解决方案。作者最初尝试在具有不同计算能力的多GPU环境下运行程序,但遭遇失败。通过调整代码,将GPU指定改为单个可用GPU,问题得以解决。文章还讨论了DataParallel的正确使用方法。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

运行程序时报错:

定位的错误是:D=torch.nn.DataParallel(discriminator(n_filters=32)).cuda(gpu_id)

本来以为是因为服务器上有4块显卡,GPU1,GPU2,GPU3的计算能力都是2.0,但是GPU0的计算能力是>3的,所以认为是调用的时候为每个GPU都分配一定的任务,所以才报错的.  但是 看其他框架下的代码直接使用XX.cuda()也是可以的..查了很多资料都没有解决方案.

有遇到过类似问题的,他们的原因是系统升级后,显卡驱动不能用了,所以要升级显卡驱动....但是我没有升级系统呀???

把函数改一改,将gpu_id作为全局变量,然后还是不行...

最后师弟将这两句函数改了,变成如下方式,就可以了....

gpu_id=0

D=discriminator(n_filters=32).cuda(gpu_id)
#D=torch.nn.DataParallel(discriminator(n_filters=32)).cuda(gpu_id)
G=generator(n_filters=32).cuda(gpu_id)
#G=torch.nn.DataParallel(generator(n_filters=32)).cuda(gpu_id)

我查了查DataParallel在pytorch中使用的,它的使用方法如下:

 可能是使用的格式不对吧.这样的操作可能是对于多个GPU可以分散任务,但是由于我的其他的GPU不能用,能用的只有1块,所以就会报错,还是直接使用单个GPU就好了...但是在单GPU的机器上跑就不会出错.

您遇到的错误信息 \"cudaMalloc3D error 3D tex 错误使用 Ax_mex all CUDA-capable devices are busy or unavailable\" 表明在尝试分配3D纹理内存时出现了问题,同时所有的CUDA设备都处于忙碌或不可用的状态。以下是一些可能的原因和解决方法: 1. **CUDA设备不可用**:确保您的系统中安装了正确版本的CUDA驱动,并且CUDA设备(通常是NVIDIA GPU)正常工作。您可以通过运行 `nvidia-smi` 命令来检查GPU的状态。 2. **内存不足**:3D纹理内存分配失败可能是因为GPU内存不足。您可以尝试释放一些GPU内存,或者在代码中优化内存使用。 3. **CUDA上下文问题**:有时候,CUDA上下文可能会出现问题,导致内存分配失败。您可以尝试重启CUDA设备或重新启动计算机。 4. **代码中的错误**:检查您的代码,确保在调用 `cudaMalloc3D` 之前,所有的CUDA设备初始化和上下文创建都已正确完成。 以下是一个简单的示例代码,展示了如何使用 `cudaMalloc3D` 分配3D纹理内存: ```cpp #include <cuda_runtime.h> #include <iostream> int main() { cudaError_t err; cudaDeviceProp prop; int device; err = cudaGetDevice(&device); if (err != cudaSuccess) { std::cerr << "cudaGetDevice failed: " << cudaGetErrorString(err) << std::endl; return 1; } err = cudaGetDeviceProperties(&prop, device); if (err != cudaSuccess) { std::cerr << "cudaGetDeviceProperties failed: " << cudaGetErrorString(err) << std::endl; return 1; } if (!prop.canMapHostMemory) { std::cerr << "Device cannot map host memory" << std::endl; return 1; } cudaSetDevice(device); cudaChannelFormatDesc channelDesc = cudaCreateChannelDesc(32, 0, 0, 0, cudaChannelFormatKindFloat); cudaExtent extent = make_cudaExtent(64, 64, 64); cudaPitchedPtr d_volume; err = cudaMalloc3D(&d_volume, extent); if (err != cudaSuccess) { std::cerr << "cudaMalloc3D failed: " << cudaGetErrorString(err) << std::endl; return 1; } // 释放内存 cudaFree(d_volume.ptr); return 0; } ```
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值