配置自己的深度学习平台
在从事深度学习研究的前期,很多人因为成本以及不确定因素等问题,一般不会购买特别好的显卡,而NVIDIA GTX1060 6G却是很大一部分人所选择的一类显卡,其价格不是很高,大概在1400元左右,而且其6G的显存恰好是一些深度学习的入门显存大小,可以用来训练一些数据量不是很大的网络模型。
笔者也是在实验室阶段,老师给配备了1060显卡的台式机,之前一直在实验室的服务器进行网络模型的训练,近期因为某些原因,想在自己的机器上配置一下Pytorch框架的深度学习平台,在前人这么多的经验面前,笔者仍然踩了很多坑,所以留下这篇文章,以期望能给后来者提供一些经验或者节约一些时间,毕竟把时间都浪费在配环境这样的工作上实在是不太划算。
本篇文章会有三条线:
-
一条是NVIDIA Driver=396.37、cuda=9.2、cudnn=7.3.1、Pytorch=1.2.0安装,成功;
-
一条是NVIDIA Driver=384.13、cuda=9.0、cudnn=7.3.1、Pytorch=1.2.0安装,当然这条线失败,接下来我会说明原因;
-
最后一条就是Anaconda3、以及Pycharm的安装以及一些Anaconda和Pycharm的简单使用和命令操作。
划重点,成功的安装方法,cuda 9.2,cudnn 7.3.1、pytorch 1.2.0
安装cuda 9.2、cudnn 7.3.1、pytorch 1.2.0是成功的,下面将详细介绍成功的步骤细节。
Nvidia Driver 396.37 安装,成功
这次我准备按照网上说的,不预先安装396.37版本驱动,**直接在安装cuda的时候安装驱动,结果失败。**估计是因为pre-install script failed的问题导致的。
- 具体步骤:
禁用nouveau驱动
安装之前,需要禁用nouveau驱动:
sudo gedit /etc/modprobe.d/blacklist.conf
在文末最后添加:
blacklist nouveau
options nouveau modeset=0
然后执行:
sudo update-initramfs -u
重启后,执行:
lsmod | grep nouveau
如果没有任何屏幕输出,就说明禁用成功。
关闭 X server
期间我在安装的时候出现一个问题:
you appear to be running an X server
原因是没有关闭 X server,所以需要进入到命令行模式将X server关闭。
按下Ctrl+Alt+F1,进入命令行模式,会让你输入用户名和密码。
然后执行
sudo service lightdm stop
装好Nvidia Driver之后,可以使用:
sudo service lightdm restart
重新进入到图形界面
执行安装文件
关掉X server,接下来使用cd命令进入到xxx.run所在的文件夹下。
可以用
chmod a+x ./xxx.run
更改文件的可执行权限
然后
sudo ./xxx.run
即可
安装之后,执行
nvidia-smi
观察到类似如下界面,即表示Nvidia驱动安装成功。
pre-install script failed 问题,未解决,但不影响
在安装过程中,除了上述关于X server问题外,我还遇到一个问题:
The distribution-provided pre-install script failed......
刚开始,我以为是很大的问题,因为我已经执行完禁用nouveau驱动以及关闭X server ,又查各种博客说要主板关闭secure boot,然后华硕要关掉fast boot,我的刚好是华硕主板,不过执行完这些操作后,pre-install script failed问题依然存在,索性我就佛系不管了,继续continue安装,一路选了yes,然后执行nvidia-smi,发现