问题
最近服务器突然出现pbs队列光排队,不运行的问题。
- 初步查看
[root@master ~]# ps -e | grep pbs_
5521 ? 00:00:48 pbs_mom
20483 pts/3 00:00:00 pbs_mom
20488 pts/3 00:00:00 pbs_mom
21055 ? 00:00:00 pbs_server
正常运行时,应该是pbs_server 和pbs_sched都在服务中,其中pbs_server 是资源管理系统的服务器,pbs_sched是任务调度器,这里可以看到任务调度器没有在运行,可能是导致上述问题的原因。
- 尝试重启
pbs_sched服务
[root@master ~]# service pbs_sched restart
Shutting down TORQUE Scheduler: pbs_sched already stopped [ OK ]
Starting TORQUE Scheduler: pbs_sched: LOG_ERROR::Address already in use (98) in main, bind
[FAILED]
这里显示接口占用,关闭服务器后无法正常重启
- 通过
kill -9命令把pbs相关服务全部干掉,重新启动
[root@master ~]# service pbs_sched restart
Shutting down TORQUE Scheduler: pbs_sched already stopped [ OK ]
Starting TORQUE Scheduler: [ OK ]
后话
问题虽然解决了,但是通过暴力重启解决的,里面的道理并没有搞懂,所以先记下,以后好查阅。
服务器pbs队列出现只排队不运行的问题,初步检查发现任务调度器未运行。尝试重启服务时遇到接口占用,最终通过强制停止并重启服务解决问题,但背后原理尚待探究。
2315

被折叠的 条评论
为什么被折叠?



