本文链接:http://blog.youkuaiyun.com/kongxx/article/details/8022496
首先从http://www.adaptivecomputing.com/resources/downloads/torque/ 最新的安装包,这里使用的是4.1.2版本,文件名是torque-4.1.2.tar.gz。
安装
$ ./configure
$ make
$ sudo make install
$ make packages (用来产生在其它机器上安装用的安装包,运行完后会生成几个torque-package-*.sh文件)
安装后,查看环境变量“PATH”,确保/usr/local/bin和/usr/local/sbin在“PATH”里面。
切换到root用户
# echo '/usr/local/lib' > /etc/ld.so.conf.d/torque.conf
# ldconfig
# ./torque.setup <user>
这里需要说明一下,Torque主要是由三个主要部件组成
pbs_server PBS服务守护进程,负责接收作业提交,位于服务节点上
pbs_sched PBS调度守护进程,负责调度作业,位于服务节点上
pbs_mom PBS MOM守护进程, 负责监控本机并执行作业,位于所有计算节点上
可以使用下面命令来启动Torque服务
$ sudo pbs_server
$ sudo pbs_sched
$ sudo pbs_mom
$ sudo trqauthd
另外Torque也提供了一些脚本,可以使用linux的service来启动停止Torque,方法就是将Torque目录下的下面几个文件复制到/etc/init.d目录下,如下:
$ sudo cp contrib/init.d/pbs_server /etc/init.d/
$ sudo cp contrib/init.d/pbs_sched /etc/init.d/
$ sudo cp contrib/init.d/pbs_mom /etc/init.d/
$ sudo cp contrib/init.d/trqauthd /etc/init.d/
然后就可以使用下面命令来启动停止服务了
$ sudo /etc/init.d/pbs_server start|stop|status
$ sudo /etc/init.d/ pbs_sched start|stop|status
$ sudo /etc/init.d/ pbs_mom start|stop|status
$ sudo /etc/init.d/ trqauthd start|stop|status
测试
1. 在master机器上写一个测试脚本/opt/test/sleep.sh, 内容如下
#!/bin/sh
sleep 600
2. 提交作业
$ qsub /opt/test/sleep.sh
3. 检查作业
$ qstat -a -n
此时可以看到各个作业的运行状态。
本文提供了一步一步的指南,包括下载、安装、配置以及启动Torque集群管理系统的过程。从获取最新安装包开始,直至通过命令行启动服务,并提供了测试脚本以验证系统的正常运行。
1880

被折叠的 条评论
为什么被折叠?



