超算使用说明
超算作业提交
| 提交方式 | 使用需求 |
|---|
| 命令行 | 有linux环境使用经验,使用slurm作业调度系统 计算结束会自动停止作业 |
| 模板提交 | 支持部分软件 计算结束会自动停止作业 |
| 图形提交 | 支持可视化操作 计算结束需要手动停止作业,否则会持续计费 |
超算流程
1.查看集群信息
sinfo //查看可用序列
squeue //查看运行中的作业列表
whichpartition //查看
2.srun和sbatch的区别
| 区别 | srun | sbatch |
|---|
| 交互性与输出方式 | 命令提交后会直接占用当前终端,直到作业完成;输出实时显示;若终端关闭,作业会被终止(配合 --job-name 等参数后台运行) | 非交互式的,作业提交后返回一个作业 ID,作业在后台运行;输出默认写入当前目录的 slurm-%j.out 文件(%j 为作业 ID)即使关闭终端,作业仍会继续执行。 |
| | |
| | |
3.sbatch的提交文件
sbatch使用的作业脚本必须是纯文本文件 如.sh 或 .sbatch文件
#!/bin/bash //Shell 脚本(最常用):#!/bin/bash 或 #!/bin/sh
#SBATCH -J dtk_elmer #设置作业名称为dtk_elmer
#SBATCH --comment=WRF #设置备注为WRF
#SBATCH -N 1 #使用1个节点
#SBATCH -o %j #指定输出文件输出
#SBATCH -e %j ##指定错误文件输出
4.sbatch的一些参数
| 参数 | 典型适用场景 | 示例命令 | 场景解释 |
|---|
| -N | 作业需要跨节点并行(如分布式计算) | sbatch -N 2 -n 4 script.sh | 作业分配到 2 个节点,共启动 4 个任务(默认每个节点 2 个任务) |
| -n | 单节点内并行(如多进程计算)或跨节点并行 | sbatch -N 1 -n 8 script.sh | 作业仅用 1 个节点,启动 8 个任务(占用 8 个核) |
那么该如何确定一个节点中能启动几个任务呢?
sinfo -o "%N %c" //%N:节点名称 %c:该节点的总CPU核心数
示例输出
NODELIST CPUS
node01 32
node02 48
node03 64
参考资料
[1]北大超算使用指南
[2]Elmer自用