cuda、cudnn、pytorch、tensorflow安装

OneQuestionADay

已于 2023-07-28 18:34:39 修改

阅读量1.4k

点赞数 5

CC 4.0 BY-SA版权

文章标签：深度学习 cuda gpu tensorflow

于 2020-12-25 23:55:20 首次发布

本文链接：https://blog.youkuaiyun.com/OneQuestionADay/article/details/111704431

1.安装显卡驱动

去官网下载相应的驱动，安装
或者最简单的方式
在这里插入图片描述
在software&updates下选择相应的驱动安装

查看gpu信息

nvidia-smi

或

cat /proc/driver/nvidia/version

2.安装cuda

下载以前版本的cuda网址:https://developer.nvidia.com/cuda-toolkit-archive
版本对照表：
在这里插入图片描述
更多版本见:https://docs.nvidia.com/cuda/cuda-toolkit-release-notes/index.html#id5
从文件名也可以看出，比如cuda_11.0.2_450.51.05_linux表示cuda版本为11.0.2，最低驱动版本为450.51.05，适用linux。

wget http://developer.download.nvidia.com/compute/cuda/11.0.2/local_installers/cuda_11.0.2_450.51.05_linux.run

可能存在的问题
在这里插入图片描述
如图，下载完成了突然报错 s段错误 (核心已转储),原因：stack size 太小
使用ulimit -a命令查看内容,使用ulimit -s 102400将stack size 改为100m,问题解决

在终端cd到指定文件夹，再执行以上命令可以将安装包保存到该文件夹下，再输入

 sudo sh cuda_11.0.2_450.51.05_linux.run

（注意核对cuda版本号）

下载过程比较慢，还经常断线，断了还要从头下载
（有人说复制网址用迅雷下载速度会快些，我并没有成功）

安装过程中注意不安装驱动
在这里插入图片描述

查看cuda版本

方法1

cat /usr/local/cuda/version.txt

方法2

有时用

nvcc -v

也可。
但是有时会显示
在这里插入图片描述
如果按照指示安装的话，可以成功安装并可通过nvcc -v查到信息，但是安装的版本会比想要的版本号低，以后说不定会出什么问题，所以又执行以下语句卸载

sudo apt-get autoremove nvidia-cuda-toolkit

3.安装cudnn

cudnn下载网站:https://developer.nvidia.com/rdp/cudnn-archive
直接下载很多次因为网络连接问题没有成功
最后用conda+清华源安装

conda install cudnn=7.6.5 -c https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/linux-64/

（注意核对cudnn版本号）

有时候有奇奇怪怪的报错，或网速太慢，下载容易中断。可以直接访问清华源网址，将包下载到本地，然后执行如下命令安装

conda install （--use-local）  cudnn-7.6.5-cuda10.2_0.tar.bz2

亲测同样有效

查看cudnn版本

cat /usr/local/cuda/include/cudnn.h | grep CUDNN_MAJOR -A 2

如下所示，版本号为7.1.2

#define CUDNN_MAJOR 7
#define CUDNN_MINOR 1
#define CUDNN_PATCHLEVEL 2
--
#define CUDNN_VERSION    (CUDNN_MAJOR * 1000 + CUDNN_MINOR * 100 + CUDNN_PATCHLEVEL)

#include "driver_types.h"

（在conda环境中用conda list查看到的版本号可能和以上不同，可看做以上是公共的，conda中是私有的）

4.安装pytorch

(conda环境安装pytorch可以不用安装cuda和cudnn，装pytorch时会一并处理好，非常人性化，一条命令全搞定)
网址：https://pytorch.org/get-started/locally/
在这里插入图片描述
ubuntu20.04安装会报错，提示找不到相应版本
把版本号后面的+cu110通通去掉，成功
（有人说pip改成pip3也可成功）

pytorch安装实例：

pip install torch==1.7.1 torchvision==0.8.2 torchaudio===0.7.2 -i https://pypi.tuna.tsinghua.edu.cn/simple

相应的版本去pytorch官网找，官网给的网址通通换成清华源

以前版本网址
https://pytorch.org/get-started/previous-versions/

1.1.0版本（cuda9.0，cudnn7）成功安装实例

pip install torch==1.1.0 torchvision==0.3.0 -f https://download.pytorch.org/whl/torch_stable.html

5.tensorflow安装

tensorflow版本对照的linux网址：https://tensorflow.google.cn/install/source

(windows)https://tensorflow.google.cn/install/source_windows
在这里插入图片描述
python3.6+cuda9支持的tensorflow版本在1.5.0-1.12.0这几个

cpu版本

pip install ~~–upgrade~~ tensorflow-1.12.0-cp36-cp36m-linux_x86_64.whl ~~–user~~

GPU版本

pip install tensorflow-gpu==1.7.0 -i https://pypi.tuna.tsinghua.edu.cn/simple

6.虚拟环境下安装cuda、cudnn、tensorflow

不同的项目可能用到不同版本的tensorflow，不同版本的tensorflow又需要不同版本的cuda和cudnn，所以考虑在虚拟环境中安装这些。以下步骤有些在前面已经详细说明，下面就总结一下。

创建虚拟环境

conda create -n XXX(环境名) python=3.6 anaconda

进入环境：

source activate XXX
or
conda  activate XXX

退出环境

source deactivate 
or
conda  deactivate

对虚拟环境中安装额外的包：

conda install -n XXX [package]

或者进入环境中再用以下命令安装（我比较喜欢这种）：

conda install [package]
or
pip install [package]

安装cuda

conda install cudatoolkit=9.0 -c https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/linux-64/

cudatoolkit=版本号

安装cudnn

conda install cudnn=7.0.5 -c https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/linux-64/

安装tensorflow

pip install tensorflow-gpu==1.7.0 -i https://pypi.tuna.tsinghua.edu.cn/simple

查询当前环境下的库的版本号：

conda list cudnn
conda list cuda
conda list tensorflow

注

如果上述conda的清华源URL失效，可尝试换成

https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/
https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/