[Linux + 深度学习]Ubuntu18.04 深度学习环境配置

最新推荐文章于 2025-02-28 15:27:49 发布

Harry嗷

最新推荐文章于 2025-02-28 15:27:49 发布

阅读量2.1k

点赞数 6

分类专栏：工具文章标签： linux cuda python pip anaconda

本文链接：https://blog.youkuaiyun.com/qq_41683065/article/details/118640329

版权

工具专栏收录该内容

10 篇文章

订阅专栏

本文详细介绍了如何在Ubuntu上安装NVIDIA显卡驱动、CUDA、CUDNN，以及设置PyTorch GPU环境，包括禁用nouveau驱动、配置环境变量和版本验证，适合深度学习开发者参考。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

contact author: Han GuangXin

NVIDIA显卡驱动

安装NVIDIA显卡驱动

software&update ==> 附加驱动 ==> 选择对应驱动 ==> 应用更改

ubuntu-drivers devices

在这里插入图片描述
安装recommend的版本！！！（下面的图就是说明一下界面，忽略安装的版本）

在这里插入图片描述

禁用Ubuntu自带的nouveau驱动

桌面终端输入：

sudo gedit /etc/modprobe.d/blacklist-nouveau.conf

打开后为空白文件，加入下面两行并保存：

blacklist nouveau
options nouveau modset=0

在终端输入：

sudo update-initramfs -u

重启

终端输入：

reboot

检验

nvidia-smi

以下为正常：

在这里插入图片描述

安装CUDA

下载.run文件

去官网下载相匹配的.run文件（我下载的是cuda_10.0.130_410.48_linux.run）

最好在终端中下载，速度比较快，从网页下载就很慢。

安装.run文件

在下载目录下打开终端，输入：

sudo sh cuda_10.0.130_410.48_linux.run

在这里插入图片描述

对应的选项如下图所示：

在这里插入图片描述

增加环境变量

sudo gedit ~/.bashrc

在对应txt文件中加入：

export CUDA_HOME=/usr/local/cuda 
export PATH=$PATH:$CUDA_HOME/bin 
export LD_LIBRARY_PATH=/usr/local/cuda-10.1/lib64${LD_LIBRARY_PATH:+:${LD_LIBRARY_PATH}}

保存并退出

source ~/.bashrc

检验

在终端中输入以下命令：

cd /usr/local/cuda/samples/1_Utilities/deviceQuery 
sudo make
./deviceQuery

正常结果为下图：

在这里插入图片描述

输入命令查看CUDA版本

cat /usr/local/cuda/version.txt

在这里插入图片描述

nvcc -V

在这里插入图片描述

若没有nvcc命令，则在终端输入以下：

sudo apt install nvidia-cuda-toolkit

报错解决

如果出现nvcc-V输出的版本与实际版本不符，则输入：

sudo apt-get autoremove nvidia-cuda-toolkit

这个问题本质是在后续安装中引入了其他版本的CUDA，删掉就好了

安装CUDNN

在官网下载符合要求的安装包（.tgz文件，压缩格式）

注意：该方法只适合CUDNN7.6.5版本，8.0.3版本亲测无效！！！

将文件解压，在解压后文件夹中打开终端，依次输入以下代码：

注意：路径名超过一行，会出现玄学BUG！！！

sudo cp cuda/include/cudnn.h /usr/local/cuda/include/ 
sudo cp cuda/lib64/libcudnn* /usr/local/cuda/lib64/ 
sudo chmod a+r /usr/local/cuda/include/cudnn.h 
sudo chmod a+r /usr/local/cuda/lib64/libcudnn*

在终端查看CUDNN版本：

cat /usr/local/cuda/include/cudnn.h | grep CUDNN_MAJOR -A 2

正常结果如下图

在这里插入图片描述

安装Anaconda

Anaconda和Python的版本对应

下载Python3.7，则下载Anaconda3-5.3.0-Linux-x86_64.sh就行了。

详细的Anaconda和Python的版本对应、Anaconda相关链接，均见附录。

下载Anaconda

进入 Anaconda下载地址，选择合适的版本，下载.sh问文件。

在这里插入图片描述

安装Anaconda

在.sh文件下打开终端，输入以下命令：

bash ./Anaconda3-5.3.0-Linux-x86_64.sh

输入yes病选择路径。

在这里插入图片描述

提示信息“Do you wish to proceed with the installation of Microsoft VSCode? [yes|no]”，输入no。

重启终端，conda才会生效！！！

pip换源

在主目录下创建.pip文件夹,然后在该目录下创建pip.conf文件：

mkdir ~/.pip
gedit ~/.pip/pip.conf

pip.conf文件编写如下内容（更换为清华大学镜像源）：

[global]
index-url = https://pypi.tuna.tsinghua.edu.cn/simple

保存退出就生效了。

安装PyTorch GPU版本

`.whl`文件下载和安装

https://download.pytorch.org/whl/

在https://download.pytorch.org/whl/cu100/torch_stable.html寻找torch和torchvision的版本的.whl文件（仅限于CUDA 10.0）。

在https://download.pytorch.org/whl/cu101/torch_stable.html寻找torch和torchvision的版本的.whl文件（仅限于CUDA 10.1）。（改cu100为cu101即可）

在https://download.pytorch.org/whl/cu102/torch_stable.html寻找torch和torchvision的版本的.whl文件（仅限于CUDA 10.2）。（改cu100为cu102即可）

~~或在https://pytorch.org/get-started/previous-versions/直接通过pip安装。~~

不建议以此方式安装，会更新Anaconda的依赖项，导致conda不可用！

torch、torchvision、Python的版本对应关系如下：

torch	torchvision	Python
1.6.0	0.7.0	>=3.6
1.5.0	0.6.0	>=3.5
1.4.0	0.5.0	==2.7, >=3.5, <=3.8
1.3.1	0.4.2	==2.7, >=3.5, <=3.7
1.3.0	0.4.1	==2.7, >=3.5, <=3.7
1.2.0	0.4.0	==2.7, >=3.5, <=3.7
1.1.0	0.3.0	==2.7, >=3.5, <=3.7
<=1.0.1	0.2.2	==2.7, >=3.5, <=3.7

下载对应的.whl文件，在该目录打开终端，执行以下命令（文件名需要自己修改）：

pip install torch-1.3.0+cu100-cp37-cp37m-linux_x86_64.whl
pip install torchvision-0.4.1+cu100-cp37-cp37m-linux_x86_64.whl

报错解决

在安装torch的时候会遇到这个报错：

twisted 18.7.0 requires PyHamcrest>=1.9.0, which is not installed.

解决方式：

进入 PyHamcrest 2.0.2，点击download
解压下载的压缩包
在该目录下打开终端，输入：
```
 pip install PyHamcrest
```
重新进行torch的安装

安装TensorFlow

pip install tensorflow-gpu==2.1.0

Linux + GPU 经过测试的构建配置

版本	Python 版本	编译器	构建工具	cuDNN	CUDA
tensorflow-2.1.0	2.7、3.5-3.7	GCC 7.3.1	Bazel 0.27.1	7.6	10.1
tensorflow-2.0.0	2.7、3.3-3.7	GCC 7.3.1	Bazel 0.26.1	7.4	10.0
tensorflow_gpu-1.14.0	2.7、3.3-3.7	GCC 4.8	Bazel 0.24.1	7.4	10.0
tensorflow_gpu-1.13.1	2.7、3.3-3.7	GCC 4.8	Bazel 0.19.2	7.4	10.0
tensorflow_gpu-1.12.0	2.7、3.3-3.6	GCC 4.8	Bazel 0.15.0	7	9
tensorflow_gpu-1.11.0	2.7、3.3-3.6	GCC 4.8	Bazel 0.15.0	7	9
tensorflow_gpu-1.10.0	2.7、3.3-3.6	GCC 4.8	Bazel 0.15.0	7	9
tensorflow_gpu-1.9.0	2.7、3.3-3.6	GCC 4.8	Bazel 0.11.0	7	9
tensorflow_gpu-1.8.0	2.7、3.3-3.6	GCC 4.8	Bazel 0.10.0	7	9
tensorflow_gpu-1.7.0	2.7、3.3-3.6	GCC 4.8	Bazel 0.9.0	7	9
tensorflow_gpu-1.6.0	2.7、3.3-3.6	GCC 4.8	Bazel 0.9.0	7	9
tensorflow_gpu-1.5.0	2.7、3.3-3.6	GCC 4.8	Bazel 0.8.0	7	9
tensorflow_gpu-1.4.0	2.7、3.3-3.6	GCC 4.8	Bazel 0.5.4	6	8
tensorflow_gpu-1.3.0	2.7、3.3-3.6	GCC 4.8	Bazel 0.4.5	6	8
tensorflow_gpu-1.2.0	2.7、3.3-3.6	GCC 4.8	Bazel 0.4.5	5.1	8
tensorflow_gpu-1.1.0	2.7、3.3-3.6	GCC 4.8	Bazel 0.4.2	5.1	8
tensorflow_gpu-1.0.0	2.7、3.3-3.6	GCC 4.8	Bazel 0.4.2	5.1	8

遇到如下的报错：

ERROR: Cannot uninstall 'wrapt'. It is a distutils installed project and thus we cannot accurately determine which files belong to it which would lead to only a partial uninstall.

终端输入：