更新cuda驱动10.0==>11.2

  1. 根据机器型号下载最新驱动
    下载地址
    查看GPU显卡信息:
    lspci -vnn | grep VGA -A 12
  2. 卸载旧驱动(可选)
    redhat参考
    ubuntu参考
  3. 安装驱动
    sudo ./NVIDIAxxxx.run --no-x-check
  4. 可能遇到的问题:
    • An NVIDIA kernel module nvidia-uvm appears to alreain
      需要查看是否有程序占用(如果存在占用,请停掉该程序)
      lsof | grep nvidia.uvm

    • An NVIDIA kernel module ‘nvidia-drm’ appears to already be loaded in your kernel:
      停止使用到 GPU 的所有顯示:
      systemctl isolate multi-user.target
      modprobe -r nvidia-drm

在GeForce RTX 3090上遇到的问题:
算力不兼容:

GeForce RTX 3090 with CUDA capability sm_86 is not compatible with the current PyTorch installation

解决方案

去pytorch官网找到匹配的conda install命令后安装pytorch

conda install pytorch torchvision torchaudio cudatoolkit=11.2 -c pytorch -c nvidia

然后运行代码仍然报错:

Torch not compiled with CUDA enabled

说明当前的Pytorch版本无法使用显卡(使用conda list发现pytorch似乎安装成了cpu版本)
(删了整个虚拟环境重装了一遍,还是报这个错)
在这里插入图片描述

查找解决方案:
检查cuda版本:cat /usr/local/cuda/version.txt
发现没有这个文件,且local下并没有cuda这个文件夹
Linux上查看已安装的CUDA和cuDNN版本号 上所有命令都试了一遍,该输出的都没输出出来,应该是cuda toolkit的问题

参考这里 安装了一遍cuda toolkit,安装方式选run file(local)
第一遍安装失败了 返回code256
解决方法:sudo rm /tmp/.X0-lock
再安装成功了,local下面多了个cuda和cuda_11.2文件夹,再配置了个环境变量
使用nvcc --version不识别nvcc
参考这里又配了一遍环境变量
发现使用/usr/local/cuda/bin/nvcc --version有输出,不知道有没有关系

回来又重复了一遍conda install pytorch, 结果装的还是cpu

???

后来改用pip 安装 就能用了

======================
2021/10/06 更新:

配置BoxE环境

pip安装1.15版本的TensorFlow-GPU
使用阿里的源进行安装
pip install tensorflow-gpu==1.15 -i http://mirrors.aliyun.com/pypi/simple --trusted-host mirrors.aliyun.com

运行后有numpy报错,更改numpy版本:

pip install -U -i https://pypi.tuna.tsinghua.edu.cn/simple numpy==版本
# -U 是重装
# -i https://pypi.tuna.tsinghua.edu.cn/simple 是使用清华镜像

在这里插入图片描述
成功

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值