文章目录
查看节点状态
sinfo
参数含义:
PARRITION:节点所在分区
AVAIL:分区状态,up 标识可用,down 标识不可用
TIMELIMIT:程序运行最大时长,infinite 表示不限制,如果限制格式为 days-houres:minutes:seconds
NODES:节点数
NODELIST:节点名列表
STATE:节点状态,可能的状态包括:
allocated、alloc :已分配
completing、comp:完成中
down:宕机
drained、drain:已失去活力
fail:失效 idle:空闲
mixed:混合,节点在运行作业,但有些空闲 CPU 核,可接受新作业
reserved、resv:资源预留
unknown、unk:未知原因 如果状态带有后缀 *,表示节点没有响应
通过sinfo查看指定分区的空闲状态
sinfo -p gpu
节点信息查看
scontrol show node
squeue查看作业状态
显示队列中所有的作业
squeue
查看指定节点作业
squeue -w c17
查看自己的作业
squeue -u `whoami`
取消队列中已提交的作业
取消作业ID为123的作业
scancel 123
取消自己上机上号上所有作业
# 注意whoami前后不是单引号
scancel -u `whoami`
取消自己上机账号上所有状态为PENDING的作业
scancel -t PENDING -u `whoami`
scancel常见参数
--help # 显示scancel命令的使用帮助信息;
-A <account> # 取消指定账户的作业,如果没有指定job_id,将取消所有;
-n <job_name> # 取消指定作业名的作业;
-p <partition_name> # 取消指定分区的作业;