1,在集群上安装tensorflow:
先创建virtualenv,然后安装,但是,安装的版本较高import时候会出现
ImportError: libcublas.so.8.0: cannot open shared object file: No such file or directory
集群上的cuda版本是7.5(usr/local/cuda/version文件),但是集群上也有cuda-8.0文件夹,但是cuda快捷方式指向的不是8版本!!!
参考http://docs.nvidia.com/cuda/cuda-installation-guide-linux/#environment-setup加入环境变量:
export PATH=$PATH:/usr/local/cuda-8.0/bin
export LD_LIBRARY_PATH=/usr/local/cuda-8.0/lib64${LD_LIBRARY_PATH:+:${LD_LIBRARY_PATH}}
这个问题解决了,又出现一个新的:
ImportError: libcudnn.so.6: cannot open shared object file: No such file or directory
集群上确实装的是cudnn5!!!!!!怎么破?
2,安装tensorflow1.2.1:
首先新建一个配置文件
mkdir ~/.pip
cd ~/.pip
touch pip.conf
vim pip.conf
写入以下内容:
[global]
index-url = https://pypi.tuna.tsinghua.edu.cn/simple
然后在virtualenv中执行:
pip install tensorflow-gpu==1.2.1
速度灰常快~~~~~~~~
3,想只用服务器上的某几个GPU:
export CUDA_VISIBLE_DEVICES="0,1"
4,自动刷新nvidia-smi:
watch -n1 nvidia-smi