由于本人最近也在训练神经网络,感受到了显卡在燃烧的痛苦,听说中南大学有全国高校第一的高性能计算平台,怎么能不好好利用一下呢!!!
账号注册与相关软件的下载
直接上干货,关于学校账号的注册与相关软件的下载,大家可以直接参考这位大神的文章:
https://blog.youkuaiyun.com/weixin_42279314/article/details/109462328
将代码传输到服务器
一切准备就绪,现在打开winSCP,登录后可以看到,左边是自己的电脑文件,右边是系统内文件,从左边将自己的代码文件复制到服务器。

如上图中标记的文件夹是我的代码文件。
准备一个脚本文件
因为高性能计算平台使用的是slurm作业调度系统,咱们要运行计算,就要先编辑一个脚本文件,将自己需要的计算资源和相关文件的路径告诉系统,首先创建一个格式sh的文件,脚本文件内容如下,根据自己的实际情况修改相关参数(参数介绍在后面),放入刚刚创建的脚本文件即可。
#!/bin/bash
#SBATCH -o /public/home/hpc203712115/faster-rcnn-tf2-main/a1_%j.log #运算结果输出的路径
#SBATCH -J gpu-job # 任务名字是 gpu-job
#SBATCH --cpus-per-task=1

本文介绍了如何在中南大学的高性能计算平台上进行深度学习的GPU训练。首先,讲述了账号注册和软件下载的过程,然后通过WinSCP将代码上传至服务器。接着,重点讲解了创建SLURM脚本文件来指定计算资源,并解释了脚本中的关键参数,如指定GPU分区和节点区域。最后,阐述了作业提交、状态检查以及取消作业的步骤,提醒用户避免在登录节点运行程序。
最低0.47元/天 解锁文章
2702





