contact author: Han GuangXin
NVIDIA显卡驱动
安装NVIDIA显卡驱动
software&update ==> 附加驱动 ==> 选择对应驱动 ==> 应用更改
ubuntu-drivers devices
安装recommend的版本!!!(下面的图就是说明一下界面,忽略安装的版本)
禁用Ubuntu自带的nouveau驱动
桌面终端输入:
sudo gedit /etc/modprobe.d/blacklist-nouveau.conf
打开后为空白文件,加入下面两行并保存:
blacklist nouveau
options nouveau modset=0
在终端输入:
sudo update-initramfs -u
重启
终端输入:
reboot
检验
nvidia-smi
以下为正常:
安装CUDA
下载.run文件
去官网下载相匹配的.run
文件(我下载的是cuda_10.0.130_410.48_linux.run
)
最好在终端中下载,速度比较快,从网页下载就很慢。
安装.run文件
在下载目录下打开终端,输入:
sudo sh cuda_10.0.130_410.48_linux.run
对应的选项如下图所示:
增加环境变量
sudo gedit ~/.bashrc
在对应txt文件中加入:
export CUDA_HOME=/usr/local/cuda
export PATH=$PATH:$CUDA_HOME/bin
export LD_LIBRARY_PATH=/usr/local/cuda-10.1/lib64${LD_LIBRARY_PATH:+:${LD_LIBRARY_PATH}}
保存并退出
source ~/.bashrc
检验
在终端中输入以下命令:
cd /usr/local/cuda/samples/1_Utilities/deviceQuery
sudo make
./deviceQuery
正常结果为下图:
输入命令查看CUDA版本
cat /usr/local/cuda/version.txt
nvcc -V
若没有nvcc
命令,则在终端输入以下:
sudo apt install nvidia-cuda-toolkit
报错解决
如果出现nvcc-V输出的版本与实际版本不符,则输入:
sudo apt-get autoremove nvidia-cuda-toolkit
这个问题本质是在后续安装中引入了其他版本的CUDA,删掉就好了
安装CUDNN
在官网下载符合要求的安装包(.tgz
文件,压缩格式)
注意:该方法只适合CUDNN7.6.5版本,8.0.3版本亲测无效!!!
将文件解压,在解压后文件夹中打开终端,依次输入以下代码:
注意:路径名超过一行,会出现玄学BUG!!!
sudo cp cuda/include/cudnn.h /usr/local/cuda/include/
sudo cp cuda/lib64/libcudnn* /usr/local/cuda/lib64/
sudo chmod a+r /usr/local/cuda/include/cudnn.h
sudo chmod a+r /usr/local/cuda/lib64/libcudnn*
在终端查看CUDNN版本:
cat /usr/local/cuda/include/cudnn.h | grep CUDNN_MAJOR -A 2
正常结果如下图
安装Anaconda
Anaconda和Python的版本对应
下载Python3.7,则下载Anaconda3-5.3.0-Linux-x86_64.sh
就行了。
详细的Anaconda和Python的版本对应、Anaconda相关链接,均见附录。
下载Anaconda
进入 Anaconda下载地址,选择合适的版本,下载.sh
问文件。
安装Anaconda
在.sh
文件下打开终端,输入以下命令:
bash ./Anaconda3-5.3.0-Linux-x86_64.sh
输入yes
病选择路径。
提示信息“Do you wish to proceed with the installation of Microsoft VSCode? [yes|no]”,输入no。
重启终端,conda才会生效!!!
pip换源
在主目录下创建.pip文件夹,然后在该目录下创建pip.conf文件:
mkdir ~/.pip
gedit ~/.pip/pip.conf
pip.conf文件编写如下内容(更换为清华大学镜像源):
[global]
index-url = https://pypi.tuna.tsinghua.edu.cn/simple
保存退出就生效了。
安装PyTorch GPU版本
.whl
文件下载和安装
https://download.pytorch.org/whl/
在https://download.pytorch.org/whl/cu100/torch_stable.html寻找torch和torchvision的版本的.whl文件(仅限于CUDA 10.0)。
在https://download.pytorch.org/whl/cu101/torch_stable.html寻找torch和torchvision的版本的.whl文件(仅限于CUDA 10.1)。(改cu100为cu101即可)
在https://download.pytorch.org/whl/cu102/torch_stable.html寻找torch和torchvision的版本的.whl文件(仅限于CUDA 10.2)。(改cu100为cu102即可)
或在https://pytorch.org/get-started/previous-versions/直接通过pip安装。不建议以此方式安装,会更新Anaconda的依赖项,导致conda不可用!
torch、torchvision、Python的版本对应关系如下:
torch | torchvision | Python |
---|---|---|
1.6.0 | 0.7.0 | >=3.6 |
1.5.0 | 0.6.0 | >=3.5 |
1.4.0 | 0.5.0 | ==2.7, >=3.5, <=3.8 |
1.3.1 | 0.4.2 | ==2.7, >=3.5, <=3.7 |
1.3.0 | 0.4.1 | ==2.7, >=3.5, <=3.7 |
1.2.0 | 0.4.0 | ==2.7, >=3.5, <=3.7 |
1.1.0 | 0.3.0 | ==2.7, >=3.5, <=3.7 |
<=1.0.1 | 0.2.2 | ==2.7, >=3.5, <=3.7 |
下载对应的.whl
文件,在该目录打开终端,执行以下命令(文件名需要自己修改):
pip install torch-1.3.0+cu100-cp37-cp37m-linux_x86_64.whl
pip install torchvision-0.4.1+cu100-cp37-cp37m-linux_x86_64.whl
报错解决
在安装torch的时候会遇到这个报错:
twisted 18.7.0 requires PyHamcrest>=1.9.0, which is not installed.
解决方式:
-
进入 PyHamcrest 2.0.2,点击download
-
解压下载的压缩包
-
在该目录下打开终端,输入:
pip install PyHamcrest
-
重新进行torch的安装
安装TensorFlow
pip install tensorflow-gpu==2.1.0
版本 | Python 版本 | 编译器 | 构建工具 | cuDNN | CUDA |
---|---|---|---|---|---|
tensorflow-2.1.0 | 2.7、3.5-3.7 | GCC 7.3.1 | Bazel 0.27.1 | 7.6 | 10.1 |
tensorflow-2.0.0 | 2.7、3.3-3.7 | GCC 7.3.1 | Bazel 0.26.1 | 7.4 | 10.0 |
tensorflow_gpu-1.14.0 | 2.7、3.3-3.7 | GCC 4.8 | Bazel 0.24.1 | 7.4 | 10.0 |
tensorflow_gpu-1.13.1 | 2.7、3.3-3.7 | GCC 4.8 | Bazel 0.19.2 | 7.4 | 10.0 |
tensorflow_gpu-1.12.0 | 2.7、3.3-3.6 | GCC 4.8 | Bazel 0.15.0 | 7 | 9 |
tensorflow_gpu-1.11.0 | 2.7、3.3-3.6 | GCC 4.8 | Bazel 0.15.0 | 7 | 9 |
tensorflow_gpu-1.10.0 | 2.7、3.3-3.6 | GCC 4.8 | Bazel 0.15.0 | 7 | 9 |
tensorflow_gpu-1.9.0 | 2.7、3.3-3.6 | GCC 4.8 | Bazel 0.11.0 | 7 | 9 |
tensorflow_gpu-1.8.0 | 2.7、3.3-3.6 | GCC 4.8 | Bazel 0.10.0 | 7 | 9 |
tensorflow_gpu-1.7.0 | 2.7、3.3-3.6 | GCC 4.8 | Bazel 0.9.0 | 7 | 9 |
tensorflow_gpu-1.6.0 | 2.7、3.3-3.6 | GCC 4.8 | Bazel 0.9.0 | 7 | 9 |
tensorflow_gpu-1.5.0 | 2.7、3.3-3.6 | GCC 4.8 | Bazel 0.8.0 | 7 | 9 |
tensorflow_gpu-1.4.0 | 2.7、3.3-3.6 | GCC 4.8 | Bazel 0.5.4 | 6 | 8 |
tensorflow_gpu-1.3.0 | 2.7、3.3-3.6 | GCC 4.8 | Bazel 0.4.5 | 6 | 8 |
tensorflow_gpu-1.2.0 | 2.7、3.3-3.6 | GCC 4.8 | Bazel 0.4.5 | 5.1 | 8 |
tensorflow_gpu-1.1.0 | 2.7、3.3-3.6 | GCC 4.8 | Bazel 0.4.2 | 5.1 | 8 |
tensorflow_gpu-1.0.0 | 2.7、3.3-3.6 | GCC 4.8 | Bazel 0.4.2 | 5.1 | 8 |
遇到如下的报错:
ERROR: Cannot uninstall 'wrapt'. It is a distutils installed project and thus we cannot accurately determine which files belong to it which would lead to only a partial uninstall.
终端输入:
pip install wrapt --ignore-installed