一、安装nvidia-docker并测试
1.在本地服务器安装docker和nvidia-docker
2.安装Xshell(连接服务器)和Xftp(传输文件)
3.在Xshell新建会话,输入主机号、用户名
4.在会话中输入管理员账号密码
5.https://gitlab.com/nvidia/container-images/cuda/blob/master/doc/supported-tags.md查看cuda版本,使用docker pull拉取对应cuda版本的镜像,这里安装的cuda11.3.1版本
nvidia-docker pull nvidia/cuda:11.3.1-base
6.创建一个基于cuda镜像的容器,测试nvidia-smi
nvidia-docker run --runtime=nvidia --rm nvidia/cuda:11.3.1-base nvidia-smi
二、拉取镜像,创建容器
拉取conda镜像参考:使用nvidia-docker创建gpu支持深度学习环境的容器_蔡逸超的博客-优快云博客
1.拉取cuda支持的深度学习镜像,以pytorch为例
创建一个pytorch容器,包括cudnn一些包,这里安装的pytorch1.11.0版本
nvidia-docker pull pytorch/pytorch:1.11.0-cuda11.3-cudnn8-devel
进入容器(显示workplace),此处容器命名为pytorch_dhm,然后看看已有的包
nvidia-docker run -it --runtime=nvidia --name=pytorch_dhm --gpus all pytorch/pytorch:1.11.0-cuda11.3-cudnn8-devel
安装所需的包,如opencv,这里使用了清华镜像源https://pypi.tuna.tsinghua.edu.cn/simple/
测试pytorch是否安装成功,并退出容器exit
三、镜像发布和保存
1.将容器发布成镜像,镜像名称设置成dhm_pytorch(之前是pytorch_dhm,改成dhm_pytorch)
nvidia-docker commit dhm_pytorch
2.将镜像保存成tar文件
nvidia-docker save dhm_pytorch -o dhm_pytorch.tar
3.这个tar文件可以拷贝到其他服务器(或推理平台),然后使用下面的命令加载镜像:
docker load -i dhm_pytorch.tar
四、将建好的容器传输到其他服务器平台
1.在Xshell中向创建容器的服务器传输文件,(即下载到本地),打开xftp新建传输,会自动更新刚建好的容器,双击dhm_pytorch.tar开始传输(时间比较久)。
2.在xftp中再新建一个会话,向远程推理平台传输tar文件
主机号就是人工智能平台的IP地址,端口号是12306,用户名密码就是gpu平台的
直接从本地拖过来
五、在远程服务器平台开启任务
在平台上:数据管理——文件管理,可以看到传输好的文件
将自己的代码也上传上来
1.导入创建好的镜像:业务管理——镜像管理——导入,在传输列表可查看是否导入成功
业务管理——任务管理——创建
命令:python 训练文件
拉取镜像之后就开始跑啦