实验室集群新购置了深度学习计算系统,配套安装服务靠不住,工程师甩锅于学校的网络环境问题。没办法,只能自己慢慢摸索学习搭建和管理维护,在各种坑中爬出。
目前集群采用计算节点和存储节点结合的方式(管理节点尚未使用),计算节点采用Ubuntu14.04系统,安装CUDA8.0和DIGITS深度学习系统。下面我从系统的安装开始叙述我的搭建过程。
Ubuntu和CUDA安装包的下载。
百度网盘资源下载:
14.04.5 64位下载地址:http://pan.baidu.com/s/1kV3P2QV 提取密码 86rw
cuda 8.0安装包下载地址:http://pan.baidu.com/s/1jHG25oy 提取密码 ucjf
digits5安装包下载地址:http://pan.baidu.com/s/1i4Jmwlv 提取密码 5oo9制作Ubuntu系统U盘启动:
本人用的是UItraISO软件在自己的电脑上制作U盘启动。插入一个U盘(需要格式化),打开软件,先找到下载的Ubuntu镜像文件地址。在工具栏上方——启动——写入硬盘映像——选择插入的U盘,格式化——写入。装Ubuntu系统
等待系统写入完成然后拔掉U盘插到需要安装系统的电脑上。安装前:进入ESC8000G3(集群计算节点 gpunum1) BIOS选择VGA:On-Board,并且显示器接到主机正面端蓝色VGA显示口。先进入BIOS设置U盘启动(不会的自己百度),保存重启。进入U盘安装,安装过程非常简单,几乎默认就可以了,分区什么的都已经默认了,如果有需求的以后可以修改设置。安装显卡驱动
在保证有网的情况下,执行指令安装驱动 sudo apt-get install nvidia-375安装cuda8和DIGITS5.0
把cuda8.0和digits5安装包(注意是.deb格式的)复制到U盘中插入机器。执行把安装包复制到电脑另一块硬盘里的(非系统盘,最下面一块)操作,因为直接粘贴到里面没有权限。这里先把两个包复制粘贴到HOME目录下(可以做到),然后打开终端窗口(Ctrl+Alt+T),获取ROOT权限 sudo -i。(输入ROOT密码)
将文件移动到存储盘中:cp cuda-repo-ubuntu1404-8-0-local-ga2_8.0.61-1_amd64.deb /user/local
cp nv-deep-learning-repo-ubuntu1404-ga-cuda8.0-digits5.0_2-1_amd64.deb /user/local
在/user/local目录下执行sudo dpkg -i cuda-repo-ubuntu1404-8-0-local-ga2_8.0.61-1_amd64.deb\nv-deep-learning-repo-ubuntu1404-ga-cuda8.0-digits5.0_2-1_amd64.deb(Linux操作快捷键tab,打一个头字母按TAB就可以出来全部文件信息)
接着:sudo apt-get update
sudo apt-get install cuda-toolkit-8-0 digits
正常执行以上步骤未报错则说明安装成功,此时只需重新启动系统。重启系统之后,必须先进 BIOS 将 VGA 选项改成 Off-Board(显卡),并且将显示器接到所有显卡中离电源最近的那片显卡上。如果不执行本步骤,系统依旧能正常运行,只不过不能进入 Ubuntu 图形桌面,但依旧能执行文字界面或者 ssh 远程登录(执行 ssh 之前,请先执行 sudo apt-get install openssh-server)
- 使用系统:
如果要执行NVIDIA最新DIGITS深度学习管理系统,只需在任何一台电脑终端上打开浏览器,网址栏输入 ESC8000G3(集群计算节点 gpunum1)的 IP即可。