分布式计算课程笔记-集群(cluster)

本文详细介绍了SLURM作业调度系统的工作原理及其在集群环境下的应用。SLURM旨在确保用户程序在互不影响的情况下按规则运行,适用于批处理或离线任务。通过提交式任务的方式,用户只需上传所需数据并编写SLURM脚本来申请资源,即可实现任务的自动化管理和监控。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

概念

节点 (node):指一台完整的主机,可以认为是服务器的别名。例 如:管理节点,计算节点,GPU 节点。
集群 (cluster):一组节点 (node) 经过局域网互联形成的计算机群。 节点之间相互通信有比较低的延迟。

作业调度系统–SLURM

本质目标:在用户程序互不影响的条件下让各个程序按照指定的规则运行。
用户只需要提交任务,不需要实时盯着屏幕看,非常适合批处理或离线任务。

SLURM 方式一:提交式任务
  1. 准备任务所需数据,将所有文件上传到一个目录中。
  2. 编写 SLURM 脚本,申请合适计算资源。
  3. 提交 SLURM 脚本(sbatch 命令)。
  4. 检查任务状态(squeue),检查任务是否会出错。
  5. 等待运行结束(程序退出后任务立即结束),验收结果。
    在这里插入图片描述
    在这里插入图片描述

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值