基于Ubuntu18.04下深度学习服务器搭建
目录:
- 基于Ubuntu18.04下深度学习服务器搭建
- 主要模块组成
- Anaconda安装
- CUDA安装
- pytorch安装
- CuDNN安装
- 其他常用指令
- 查看系统发行信息
- 查看系统位数
- 为用户分配sudo权限
- 安装Apache服务器并启用防火墙控制
- 新建用户
- 查看、安装、卸载、更新GPU显卡驱动
- 安装jdk1.8
一、基于Ubuntu18.04下深度学习服务器搭建
1、主要模块组成
- GPU显卡驱动安装:高效执行复杂的数学和几何计算
- Anaconda安装:一个开源的Python发行版本,conda可用于快速安装不同版本的软件包及其依赖包,Anaconda包含conda、Python、Numpy、Pandas等包
- CUDA安装:通用并行计算架构,执行device端的Kernel程序,解决大量并行化的问题,有效利用GPU芯片上的大量执行单元
- cuDNN安装:用于深度神经网络的GPU加速库
- pytorch安装:基于自动求导系统构建神经网络,为张量计算(如Numpy)提供强大的GPU加速
2、Anaconda安装
(1)安装过程:
- 使用清华镜像下载安装包:sudo wget https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/Anaconda3-5.3.1-Linux-x86_64.sh
- 执行脚本文件:sh Anaconda3-5.3.1-Linux-x86_64.sh,按照提示输入回车或yes后,软件会自动进行安装
- 安装完毕后查看Anaconda和conda版本信息:anaconda -V和conda -V,查看到Anaconda的版本为1.7.2,conda的版本为4.5.11
- 使用指令:conda info也能查看到详细信息:
(2)安装过程遇到的问题以及解决办法:
a)报错信息:conda报错from conda.cli import main ModuleNotFoundError: No module named 'conda'
解决办法:
- 在安装完成后立即更新conda:conda update conda
3、CUDA安装
-
为了兼容大部分TensorFlow中的模块,服务器上安装CUDA9.0版本,但尝试过11.1版本的CUDA安装,下面分别记录两个版本的Cuda的安装过程:
(1)11.1版本CUDA安装:
- 执行指令:wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu1804/x86_64/cuda-ubuntu1804.pin
- 将文件移动到etc目录:sudo mv cuda-ubuntu1804.pin /etc/apt/preferences.d/cuda-repository-pin-600
- 接下来执行指令:wget