博客原文链接:https://blog.youkuaiyun.com/weixin_42552745/article/details/84665096
ubuntu18.04 深度学习GPU环境配置
环境配置:Ubuntu 18.04、cuda 9.0、cuDnn v7、TensorFlow1.9 与anaconda3 5.2.0
前天实验室新配置的电脑到了,作为一个小白,我在新电脑上搭建深度学习GPU环境,然后各种碰壁,每一个步骤都基本要弄几次,内心各种烦躁,在接触和解决了各种各样的问题后,我总结出了一个能顺利完成配置的教程,祝你成功。
1 进行NVIDIA的驱动安装
1.1 通过官网下载合适的run文件进行安装
官网: https://www.geforce.cn/drivers
打开网站后输入你的配置,然后开始搜索
在结果中下载最新或者想要的不能本的run文件
1.2 删除旧的驱动
Linux默认安装的显卡驱动不是英伟达的驱动,所以先把旧得驱动删除掉,不过我输入命令后显示没有旧驱动,所以也省事。
1 # 删除
2 sudo apt-get purge nvidia*
- 1
- 2
1.3 禁止自带的nouveau nvidia驱动
ubuntu自带的nouveau驱动会影响cuda安装,不当操作会导致黑屏和登陆循环。
由于 blacklist.conf文件不允许修改,得先用chmod修改属性,获得权限。
修改属性的代码:
sudo chmod 666 /etc/modprobe.d/blacklist.conf
- 1
直接打开blacklist文件,在文件最末尾加入下面两行代码行,然后点击保存,最后关闭文件。
(如果终端显示不支持操作,不用管它,还是能成的。)
blacklist nouveau
options nouveau modeset=0
- 1
- 2
然后记得将文件权限复原
sudo chmod 644 /etc/modprobe.d/blacklist.conf
- 1
更新:
sudo update-initramfs -u
- 1
最后在终端输入以下代码重启电脑,完成修改
sudo reboot
- 1
重启电脑后确认是否已经将自带的驱动屏蔽了,输入代码后没有结果输出,则表示屏蔽成功,可以进行安装了
lsmod | grep nouveau
- 1
1.4 安装NVIDIA驱动
注:安装之前,要进行以下关键一步:
再重启电脑,然后开机瞬间按F2进入bios设置(或者delete,esc…在网上查自己牌子、型号电脑按什么键进入),然后找到Security里面的 Secure Boot选项,Secure Boot选择Disabled,按f10保存,重启。(不同电脑不一样,只要能将secure boot 设置成disabled就行了)否则安装驱动会失败。设置好之后开机,按照以下步骤安装即可成功。
先关闭图形化界面(输入后显示没加载,不用管,还是可以的)
sudo service lightdm stop
- 1
再按 Ctrl+alt+F1,此时会返回登陆界面,输入登陆密码后则可进入字符界面。
安装驱动
sudo chmod a+x NVIDIA-Linux-x86_64-415.13.run //获取权限
sudo ./NVIDIA-Linux-x86_64-415.13.run //安装驱动
- 1
- 2
安装结束后重启电脑,再查看是否安装成功
(若成功,两行代码的结果会分别显示如下:)
sudo nvidia-smi
sudo nvidia-settings
- 1
- 2
2 cuda7.0安装
2.1 下载文件
官网下载cuda7.0的网址:https://developer.nvidia.com/cuda-90-download-archive?target_os=Linux&target_arch=x86_64&target_distro=Ubuntu&target_version=1704&target_type=runfilelocal
按如图选择,然后点击下载(其余补丁不用下载了):
2.2 安装依赖库
在下载完成后在运行这个run文件之前先安装依赖库:
sudo apt-get install freeglut3-dev build-essential libx11-dev libxmu-dev libxi-dev libgl1-mesa-glx libglu1-mesa libglu1-mesa-dev
- 1
2.3 gcc降版本
CUDA9.0要求GCC版本是5.x或者6.x,其他版本不可以,需要自己进行配置,通过以下命令才对gcc版本进行修改。
# 查看版本(版本若高于6,则按代码降低到5)
g++ --version
- 1
- 2
# 版本安装:
sudo apt-get install gcc-5
sudo apt-get install g++-5
- 1
- 2
- 3
通过命令替换掉之前的版本:
sudo update-alternatives --install /usr/bin/gcc gcc /usr/bin/gcc-5 50
sudo update-alternatives --install /usr/bin/g++ g++ /usr/bin/g++-5 50
- 1
- 2
最后查看版本,验证是否修改成功。
2.4 安装cuda9.0
运行下载的run文件:
sudo sh cuda_9.0.176_384.81_linux.run
- 1
注意:在安装过程中会提示是否需要安装显卡驱动(这是很久的版本),如图所示,在这里要选择n,其他的选择y或者回车键进行安装。一定要注意!!否则前面安装的驱动就白安装了,而且还会导致出错。
到最终的结果如果没有错误,得到的结果如图所示:
2.5 环境配置
按以下步骤操作:
#打开一个配置文件
sudo gedit ~/.bashrc
- 1
- 2
#在末尾把以下配置写入并保存,可能会警告不支持操作,不用理会
export PATH=/usr/local/cuda-9.0/bin${PATH:+:${PATH}}
export LD_LIBRARY_PATH=/usr/local/cuda-9.0/lib64${LD_LIBRARY_PATH:+:${LD_LIBRARY_PATH}}
- 1
- 2
- 3
- 4
#最后更新一下
source ~/.bashrc
- 1
- 2
#重启电脑
sudo reboot
- 1
- 2
2.6 测试是否安装成功
# 进入例子对应的文件夹
cd NVIDIA_CUDA-9.0_Samples/5_Simulations/fluidsGL
# 执行make
make clean && make
# 运行
./fluidsGL
- 1
- 2
- 3
- 4
- 5
- 6
会生成一个流动的图,在图上按住鼠标左键拖动,即可看见流体被黑色的痕迹划开。安装完成。
当运行以上的程序时,不要关闭,在新终端里输入nvidia-smi
查看GPU的使用情况。
3 cuDnn v7 安装
3.1 下载
cudnn的安装一定要和cuda相匹配,由于我们安装的cuda是9.0版本,在官网查看后,选择相应的cudnnV7安装。
点击官网:https://developer.nvidia.com/rdp/cudnn-archive。
然后在cuDNN v7.0.5 (Dec 5, 2017), for CUDA 9.0 的列表里下载三个文件 ,如图:
3.2 安装
sudo dpkg -i libcudnn7_7.0.5.11-1+cuda9.0_amd64.deb
sudo dpkg -i libcudnn7-dev_7.0.5.11-1+cuda9.0_amd64.deb
sudo dpkg -i libcudnn7-doc_7.0.5.11-1+cuda9.0_amd64.deb
- 1
- 2
- 3
3.3 测试
cp -r /usr/src/cudnn_samples_v7/ $HOME
cd $HOME/cudnn_samples_v7/mnistCUDNN
make clean && make
./mnistCUDNN
- 1
- 2
- 3
- 4
最终如果有提示信息:“Test passed! ”,则说明安装成功,如图所示:
4 进行anaconda的安装
注:最好下载清华镜像源的5.2.0的版本下载,这样安装tf-gpu的速度将快很多。
因为python3.7不能匹配tensorflow-gpu1.9.0,若python3.7环境下安装的tf,导入tf时会出现错误,没有该tf模块。
ubuntu18.04系统的自带python版本是3.6.7,anaconda5.3版本的python版本是3.7,5.2.0的python版本是3.6.5。
4.1 下载
清华镜像源网址:https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/, 选择5.2.0版本下载
4.2 安装
bash ~/Downloads/Anaconda3-5.2.0-Linux-x86_64.sh
- 1
之后一直按回车或者yes就行了。安装完成后要重启电脑。
5 安装tensorflow-gpu1.9
我在这就写一个最容易成功的安装方法:终端输入anaconda-navigator
后,点击environments,点击base,然后选择all,输入tensorflow搜索所有可以下载的选项,选择gpu版本,然后按apply,等待它再弹出一个窗口,按下载后等待即可。
安装完在终端进入python环境,import tensorflow as tf,查看它的版本,若这个过程都没有提示错误,则表示以上所有的版本都是匹配的,安装成功。
查看版本代码如下:
tf.__version__
- 1
祝成功。
</div>
<link href="https://csdnimg.cn/release/phoenix/mdeditor/markdown_views-258a4616f7.css" rel="stylesheet">
</div>