解决RuntimeError: No CUDA GPUs are available问题

今天运行之前可以正常运行的项目时,发现了以下问题:
在这里插入图片描述
接下来记录解决过程:

  1. 参考:os.environ[“CUDA_VISIBLE_DEVICES”]="2"的问题

    因为代码中设置了选择了具体的GPU的型号,但是有可能没有这个GPU,需要找到对应的GPU,但GPU可以修改为0。但是这个对我来说没有效果。

  2. 接着查看是否可以用cuda

    import torch
    print(torch.cuda.device_count())
    torch.cuda.is_available()
    

    在这里插入图片描述

  3. 查看显卡驱动是否安装成功
    终端输入:

    nvidia-smi
    

    在这里插入图片描述
    如果没有安装过驱动应该是这样的:
    在这里插入图片描述
    需要安装驱动,可以参考我的博客:ubuntu显卡驱动安装
    但是我以前安装过,就尝试其他方法:参考链接

  4. 查看cuda版本

    nvcc -V
    

    在这里插入图片描述发现cudn已安装。

  5. 查看已安装驱动的版本信息

    ls /usr/src | grep nvidia
    

    在这里插入图片描述

  6. 输入以下命令
    根据自己的驱动版本修改:

    sudo apt-get install dkms
    sudo dkms install -m nvidia -v 550.135
    

    完成结果:
    在这里插入图片描述

  7. 尝试nvidia-smi:
    在这里插入图片描述

然后运行代码就没问题了。希望以上信息能帮助到大家。

### 解决集群环境中CUDA GPU不可用的问题 当遇到 `RuntimeError: No CUDA GPUs are available` 错误时,这通常意味着程序无法检测到可用的CUDA设备。为了排查并解决问题,可以从以下几个方面入手: #### 验证硬件和软件环境配置 确保集群中的节点配备了支持CUDA的GPU,并且已正确安装相应的驱动程序[^1]。 验证Linux操作系统版本以及gcc编译器工具链是否满足CUDA的要求。对于特定的操作系统发行版和支持的GCC版本列表,请参阅官方文档说明。 确认已经成功部署了NVIDIA CUDA Toolkit。可以通过运行命令`nvcc --version`来检查CUDA toolkit是否存在及其版本号。 #### 检查PyTorchCUDA兼容性 在Python交互式解释器中输入以下代码片段以测试PyTorch能否识别到CUDA资源: ```python import torch print(torch.cuda.is_available()) ``` 如果返回False,则表示当前环境下PyTorch未能找到任何CUDA设备;此时应进一步调查原因所在[^2]。 #### 排除常见问题 - **模块加载路径**:某些情况下,默认PATH变量可能未包含指向nvidia-smi或其他必要的库文件的位置。可以尝试手动设置这些环境变量或将它们添加至shell初始化脚本里。 - **权限不足**:部分集群可能会对用户访问GPU施加限制措施。联系管理员获取适当授权或许可证明是有帮助的做法之一。 - **多租户共享模式下的竞争状况**:在一个由多个研究小组共同使用的计算平台上,可能存在其他作业正在占用全部或大部分GPU资源的情况。查看队列状态了解是否有空闲卡可供分配给自己的任务使用。 通过上述方法能够有效地定位并处理大多数关于“无CUDA GPU可用”的异常情况。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值