概念
节点 (node):指一台完整的主机,可以认为是服务器的别名。例 如:管理节点,计算节点,GPU 节点。
集群 (cluster):一组节点 (node) 经过局域网互联形成的计算机群。 节点之间相互通信有比较低的延迟。
作业调度系统–SLURM
本质目标:在用户程序互不影响的条件下让各个程序按照指定的规则运行。
用户只需要提交任务,不需要实时盯着屏幕看,非常适合批处理或离线任务。
SLURM 方式一:提交式任务
- 准备任务所需数据,将所有文件上传到一个目录中。
- 编写 SLURM 脚本,申请合适计算资源。
- 提交 SLURM 脚本(sbatch 命令)。
- 检查任务状态(squeue),检查任务是否会出错。
- 等待运行结束(程序退出后任务立即结束),验收结果。