基于中南大学高性能计算平台进行深度学习训练（GPU的调用）

最新推荐文章于 2025-09-20 17:29:19 发布

原创

最新推荐文章于 2025-09-20 17:29:19 发布 · 3.7k 阅读

48 ·

CC 4.0 BY-SA版权

文章标签：

#深度学习

本文介绍了如何在中南大学的高性能计算平台上进行深度学习的GPU训练。首先，讲述了账号注册和软件下载的过程，然后通过WinSCP将代码上传至服务器。接着，重点讲解了创建SLURM脚本文件来指定计算资源，并解释了脚本中的关键参数，如指定GPU分区和节点区域。最后，阐述了作业提交、状态检查以及取消作业的步骤，提醒用户避免在登录节点运行程序。

由于本人最近也在训练神经网络，感受到了显卡在燃烧的痛苦，听说中南大学有全国高校第一的高性能计算平台，怎么能不好好利用一下呢！！！

账号注册与相关软件的下载

直接上干货，关于学校账号的注册与相关软件的下载，大家可以直接参考这位大神的文章：

https://blog.youkuaiyun.com/weixin_42279314/article/details/109462328

将代码传输到服务器

一切准备就绪，现在打开winSCP，登录后可以看到，左边是自己的电脑文件，右边是系统内文件，从左边将自己的代码文件复制到服务器。

如上图中标记的文件夹是我的代码文件。

准备一个脚本文件

因为高性能计算平台使用的是slurm作业调度系统，咱们要运行计算，就要先编辑一个脚本文件，将自己需要的计算资源和相关文件的路径告诉系统，首先创建一个格式sh的文件，脚本文件内容如下，根据自己的实际情况修改相关参数（参数介绍在后面），放入刚刚创建的脚本文件即可。

#!/bin/bash
#SBATCH -o /public/home/hpc203712115/faster-rcnn-tf2-main/a1_%j.log #运算结果输出的路径
#SBATCH -J gpu-job            # 任务名字是 gpu-job
#SBATCH --cpus-per-task=1