HPC计算集群Slurm使用

查看节点状态

sinfo

在这里插入图片描述
参数含义:

PARRITION:节点所在分区
AVAIL:分区状态,up 标识可用,down 标识不可用
TIMELIMIT:程序运行最大时长,infinite 表示不限制,如果限制格式为 days-houres:minutes:seconds
NODES:节点数
NODELIST:节点名列表
STATE:节点状态,可能的状态包括:
allocated、alloc :已分配
completing、comp:完成中
down:宕机
drained、drain:已失去活力
fail:失效 idle:空闲
mixed:混合,节点在运行作业,但有些空闲 CPU 核,可接受新作业
reserved、resv:资源预留
unknown、unk:未知原因 如果状态带有后缀 *,表示节点没有响应

通过sinfo查看指定分区的空闲状态

sinfo -p gpu

在这里插入图片描述
节点信息查看

scontrol show node

在这里插入图片描述

squeue查看作业状态

显示队列中所有的作业

squeue

查看指定节点作业
squeue -w c17

查看自己的作业

squeue -u `whoami` 

取消队列中已提交的作业

取消作业ID为123的作业

scancel 123

取消自己上机上号上所有作业

# 注意whoami前后不是单引号
scancel -u `whoami`

取消自己上机账号上所有状态为PENDING的作业

scancel -t PENDING -u `whoami`

scancel常见参数

--help                # 显示scancel命令的使用帮助信息;
-A <account>        # 取消指定账户的作业,如果没有指定job_id,将取消所有;
-n <job_name>        # 取消指定作业名的作业;
-p <partition_name> # 取消指定分区的作业;
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值