- 根据机器型号下载最新驱动
下载地址
查看GPU显卡信息:
lspci -vnn | grep VGA -A 12 - 卸载旧驱动(可选)
redhat参考
ubuntu参考 - 安装驱动
sudo ./NVIDIAxxxx.run --no-x-check - 可能遇到的问题:
-
An NVIDIA kernel module nvidia-uvm appears to alreain
需要查看是否有程序占用(如果存在占用,请停掉该程序)
lsof | grep nvidia.uvm -
An NVIDIA kernel module ‘nvidia-drm’ appears to already be loaded in your kernel:
停止使用到 GPU 的所有顯示:
systemctl isolate multi-user.target
modprobe -r nvidia-drm
-
在GeForce RTX 3090上遇到的问题:
算力不兼容:
GeForce RTX 3090 with CUDA capability sm_86 is not compatible with the current PyTorch installation
去pytorch官网找到匹配的conda install命令后安装pytorch
conda install pytorch torchvision torchaudio cudatoolkit=11.2 -c pytorch -c nvidia
然后运行代码仍然报错:
Torch not compiled with CUDA enabled
说明当前的Pytorch版本无法使用显卡(使用conda list发现pytorch似乎安装成了cpu版本)
(删了整个虚拟环境重装了一遍,还是报这个错)
查找解决方案:
检查cuda版本:cat /usr/local/cuda/version.txt
发现没有这个文件,且local下并没有cuda这个文件夹
把Linux上查看已安装的CUDA和cuDNN版本号 上所有命令都试了一遍,该输出的都没输出出来,应该是cuda toolkit的问题
参考这里 安装了一遍cuda toolkit,安装方式选run file(local)
第一遍安装失败了 返回code256
解决方法:sudo rm /tmp/.X0-lock
再安装成功了,local下面多了个cuda和cuda_11.2文件夹,再配置了个环境变量
使用nvcc --version不识别nvcc
参考这里又配了一遍环境变量
发现使用/usr/local/cuda/bin/nvcc --version有输出,不知道有没有关系
回来又重复了一遍conda install pytorch, 结果装的还是cpu
???
后来改用pip 安装 就能用了
======================
2021/10/06 更新:
配置BoxE环境
pip安装1.15版本的TensorFlow-GPU
使用阿里的源进行安装
pip install tensorflow-gpu==1.15 -i http://mirrors.aliyun.com/pypi/simple --trusted-host mirrors.aliyun.com
运行后有numpy报错,更改numpy版本:
pip install -U -i https://pypi.tuna.tsinghua.edu.cn/simple numpy==版本
# -U 是重装
# -i https://pypi.tuna.tsinghua.edu.cn/simple 是使用清华镜像
成功