SLURM 作业调度系统使用
交互式申请终端进行代码调试:
$ salloc -N 1 --cpus-per-task=4 -t 5:00 -p GPU-V100
-N <节点数量>
–cpus-per-task=<单进程 CPU 核心数>
–gres=gpu:<单节点 GPU 卡数>
-t <最长运行时间>
-p <使用的分区>
–qos=<使用的 QoS>
执行成功后,SLURM 会给你一个新的 Shell,注意此时用户所在节点仍为主节点,需要 使用 ssh 命令手动切换到计算节点。
$ ssh comput1
交互式计算使用完毕后,先使用 exit 退出节点,再执行 exit 退出 SLURM 分配 的 Shell,可结束这次交互式任务。SLURM 会提示你交互式任务的资源已经被释放。
提交作业
$ sbatch xxx.sh
查看任务状态
$ scontrol show job XXXXX(jod id)
查看用户任务状态
squeue -u XXXXX(用户名)

本文介绍了SLURM作业调度系统如何交互式申请终端进行代码调试,包括命令行参数如节点数量、CPU核心数、GPU资源、运行时间和分区选择。在调试完成后,通过正确退出流程释放资源。此外,还讲解了如何提交作业、查看任务状态以及用户任务的状态查询。SLURM是高效管理计算集群资源的重要工具。
最低0.47元/天 解锁文章
347

被折叠的 条评论
为什么被折叠?



