PBS 是功能最为齐全,历史最悠久,支持最广泛的本地集群调度器之一。 PBS 的目前包括 openPBS,PBS Pro 和 Torque 三个主要分支。其中 OpenPBS 是最早的 PBS 系统,目前已经没有太多后续开发,PBS pro 是PBS 的商业版本,功能最为丰富。Torque 是Clustering 公司接过了 OpenPBS,并给与后续支持的一个开源 版本。
除了PBS,常用的集群作业管理系统还有LSF 和 SLURM
社区论坛:OpenPBS社区
本文围绕以PBS为核心组件,提出一个高性能计算集群调度和管理系统的设计方案,系统的整体的结构如下图所示:

PBS -- 安装配置步骤
在 master(管理结点上)
1、解压安装包
[root@master tmp]# tar zxvf torque-2.3.0.tar.gz
2、进入到解压后的文件夹
配置: ./configure--with-default-server=master
编译: make
安装: make install
[root@master torque-2.3.0]# ./configure--with-default-server=master
[root@master torque-2.3.0]# make
[root@master torque-2.3.0]# make install
生成后面安装计算节时需要的5个脚本文件, 作为在其它机器上安装用的安装包,运行完后会生成几个torque-package-*.sh文件
[root@master torque-2.3.0]# make packages
初始化配置
[root@master torque-2.3.0]# sudo ./torque.setup wangwei #设置wangwei用户为管理用户
设置计算节点
配置 /var/spool/torque/server_priv/nodes 文件(如果没有就手动添加),指定哪些节点作为计算节点,若管理节点不参与计算则去掉ww-master
ww-master np=8
ww-slave1 np=8
ww-slave2 np=8
这里需要说明一下,Torque主要是由三个主要部件组成
pbs_server PBS服务守护进程,负责接收作业提交,位于服务节点上
pbs_sched PBS调度守护进程,负责调度作业,位于服务节点上
pbs_mom PBS MOM守护进程, 负责监控本机并执行作业,位于所有计算节点上
$ sudo pbs_server //在服务器节点执行
$ sudo pbs_sched //在服务器节点执行
$ sudo pbs_mom //在计算节点执行
$ sudo trqauthd
linux下,源码的安装一般由3个步骤组成:配置(configure)、编译(make)、安装(make install)
./configure的作用是检测系统配置,生成makefile文件,以便你可以用make和make install来编译和安装程序。
./configure --prefix --with;其中--prefix指的是安装路径,--with指的是安装本文件所依赖的库文件
如果不指定prefix,则可执行文件默认放在/usr/local/bin,库文件默认放在/usr/l

最低0.47元/天 解锁文章
7119

被折叠的 条评论
为什么被折叠?



