本文主要记录如何在 Google 云服务器上配置远程深度学习环境,对于单机同样也适用。
本文翻译自: TensorFlow_GPU+ubuntu16.04
服务器环境:
系统环境: Ubuntu 16.04
硬件环境: Intel(R) Xeon(R) CPU @ 2.30GHz 内存 : 16G GPU: Tesla K80
安装完后具备的环境:
1. Ubuntu 16.04
2. cuda 9.0 驱动
3. miniconda 环境 (python 3.6)
4. Tensorflow_gpu 版本
Step 0 : 在开始之前需要关闭 NVIDIA 驱动 nouveau
Method 1:
SSH 连接到服务器后,创建文件:
vi /etc/modprobe.d/nouveau
在创建的文件中键入:
blacklist nouveau
options nouveau modeset=0
之后 重启系统 reboot
系统启动后,确认 nouveau 已经关闭 (当输入以下命令后,没有任何反应,则表示已经关闭该驱动):
lsmod | grep nouveau
Method 2:
在命令行中输入以下命令删除原生NVIDIA 驱动:
sudo apt-get purge nvidia*
sudo reboot
Step 1 安装 Cuda 9.0
1)进行系统升级:
sudo apt-get update
2)安装相关依赖包
sudo apt-get install openjdk-8-jdk git python-dev python3-dev python-numpy python3-numpy build-essential python-pip python3-pip python-virtualenv swig python-wheel libcurl3-dev curl
3)安装NVIDIA 驱动
3.1 下载驱动:
curl -O http://developer.download.nvidia.com/compute/cuda/repos/ubuntu1604/x86_64/cuda-repo-ubuntu1604_9.0.176-1_amd64.deb
3.2 下载安装 key:
sudo apt-key adv --fetch-keys http://developer.download.nvidia.com/compute/cuda/repos/ubuntu1604/x86_64/7fa2af80.pub
3.3 安装下载的deb包:
sudo dpkg -i ./cuda-repo-ubuntu1604_9.0.176-1_amd64.deb
3.4 采用 apt 方式安装cuda 9.0:
sudo apt-get update
sudo apt-get install cuda-9-0
3.5 安装完成后重启系统:
reboot
3.6 检测NVIDIA 显卡驱动是否安装: 如果安装完成,则会看到GPU列表
nvidia-smi
Step 2 安装 Cudnn 7.1
1) 获得安装包 :
wget https://s3.amazonaws.com/open-source-william-falcon/cudnn-9.0-linux-x64-v7.1.tgz
2) 解压
sudo tar -xzvf cudnn-9.0-linux-x64-v7.1.tgz
3) 将cudnn 文件拷贝到 cuda 安装目录 :
sudo cp cuda/include/cudnn.h /usr/local/cuda/include
sudo cp cuda/lib64/libcudnn* /usr/local/cuda/lib64
sudo chmod a+r /usr/local/cuda/include/cudnn.h /usr/local/cuda/lib64/libcudnn*
4) 将cuda目录添加到 ~/.bashrc 中 :
export LD_LIBRARY_PATH="$LD_LIBRARY_PATH:/usr/local/cuda/lib64:/usr/local/cuda/extras/CUPTI/lib64"
export CUDA_HOME=/usr/local/cuda
5)更新 ~/.bashrc :
source ~/.bashrc
Step 3 安装 Miniconda 并 创建 conda 环境
1) 下载miniconda 并安装 :
wget https://repo.continuum.io/miniconda/Miniconda3-latest-Linux-x86_64.sh
bash Miniconda3-latest-Linux-x86_64.sh
# press s to skip terms
# Do you approve the license terms? [yes|no]
# yes
# Miniconda3 will now be installed into this location:
# accept the location
# Do you wish the installer to prepend the Miniconda3 install location
# to PATH in your /home/ghost/.bashrc ? [yes|no]
# yes
2) 更新 ~/.bashrc :
source ~/.bashrc
3) 创建conda环境:
conda create -n tensorflow python=3.6
激活 conda 环境:
source activate tensorflow
4)安装 GPU 版本 TensorFlow:
pip install tensorflow-gpu
到这里基本上就安装完毕了,现在进行测试一下:
5) 测试:
python
import tensorflow as tf
constant = tf.constant('Hello Tensorflow')
with tf.Session() as sess:
print(sess.run(constant))
如果没有弹出错误,则表明该环境安装成功!