注:a.电脑显卡:gtx2060
系统:ubuntu16.04
显卡驱动:440.59(装最新的驱动的原因是支持最新的cuda10.2,可支持多种cuda)
显卡驱动:cuda10.2
tf:tensorflow-gpu:1.14 ,cuda:10.1,cudnn:7.6.5
torch:pytorch:1,5,torch:0.6,cuda:10.2,cudnn:7.6.5
b,nvcc -V是电脑默认驱动,nvidia-smi是显卡驱动,两者不一定相同,且装多个虚拟环境,可切换nvcc -V下的cuda版本,以装不同cuda版本的框架。
1.显卡驱动安装:根据自己版本官网下载
参考:https://blog.youkuaiyun.com/xinjieyuan/article/details/95628588
问题1:安装显卡驱动后循环登录:
原因是安装驱动失败,无法进入系统,需卸载重新安装,另外:借鉴https://blog.youkuaiyun.com/Daisy_D99/article/details/83046665?utm_medium=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-1.nonecase&depth_1-utm_source=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-1.nonecase重新安装
问题2:安装过程中出现you appera to be running~的问题
- ctrl+alt+f1进入图形界面
- sudo service lightdm stop
- sudo init 3
继续按照上述步骤安装。
安装成功后:nvidia-smi可以查看驱动、cuda信息。
如图:驱动版本为440.59,cuda版本为10.2
2.tf-gpu安装
官网查看cuda版本、cudnn版本、tensorflow-gpu版本对应关系,官网链接
我下载的tensorflow-gpu版本为1.14,官网cuda版本为10.0,但我在使用conda安装过程中,cuda版本为10.1,所以下载cuda10.1,
另外cudnn版本为7.6.5,在anaconda下开一个虚拟环境,下载过程参考:https://blog.youkuaiyun.com/xinjieyuan/article/details/100667803
由于电脑cuda驱动版本为10.2,而tf需要cuda10.1,切换cuda版本:https://blog.youkuaiyun.com/qq_39068872/article/details/89929307
之后,nvcc -v版本为10.1,使用conda安装tf,安装成功后:tf.test.is_gpu_available()返回ture。安装成功。
3.torch-gpu安装。
重新官网下载cuda10,2,cudnn7.6.5,之后切换cuda版本,重开一个虚拟环境,使用清华源conda安装pytorch。
安装成功后,测试:
安装成功。