Slurm常用命令
查询指定时间段作业详情
sacct -n -a -p --starttime 2021-10-07T00:00:00 --endtime 2021-10-07T10:00:00 --format=JobId,state,user,account,partition,jobname,nodelist,nnodes,submit,start,end,suspended,ncpus,MaxRss,elapsed,allocgres
当前排队作业数量
sacct --allocations --format=Jobid,Jobname,partition,AllocCPUS,State,ExitCode,ReqGRES|grep PENDING
当前运行数量
sacct --allocations --format=Jobid,Jobname,partition,AllocCPUS,State,ExitCode,ReqGRES|grep RUNNING
近几分钟内异常退出作业数量
sacct -S2020-03-09-16:00:00 -E2020-03-10-16:00:00 --allocations --format=Jobid,Jobname,partition,AllocCPUS,State,ExitCode,ReqGRES|grep FAILED
近几分钟内正常完成作业数量
sacct -S2020-03-09-16:00:00 -E2020-03-10-16:00:00 --allocations

本文介绍了Slurm集群管理系统中用于查询作业状态、监控资源使用的常用命令,包括查询指定时间段作业详情、当前排队和运行作业数量、异常及完成作业统计,以及查看节点状态和队列信息。这些命令对于有效管理和优化Slurm集群资源至关重要。
最低0.47元/天 解锁文章
4169

被折叠的 条评论
为什么被折叠?



