PBS 排队系统一直不能运行

针对PBS排队系统提交作业时出现的常见问题进行了解析,并提供了一套完整的排查和解决思路,包括作业状态查询、错误信息解读及解决方案。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

PBS 排队系统一直不能运行

tips

看到木虫社区有人发帖,为了帮助到更多的人,所以把问题和解决都贴过来。

原来的问题

老板在集群上开了一个账户给我,但是提交PBS脚本后,qstat状态一直显示为C,cpu运行时间也全部为0。通过查看邮件报错信息,显示为An error has occurred processing your job, see below.
Post job file processing error; job 1608 on host compute-0-4/2Unknown resource type REJHOST=compute-0-4.local MSG=invalid home directory ‘/export/home/wj’ specified, errno=2 (No such file or directory).
请问有人遇到同样的问题吗?求问怎么解决?谢谢

本人的回答

尽管帖子已经过去很多时间了。但是作为一名以前用过PBS的人员来说,经历并感受到了很多非IT专业人员使用PBS等队列系统遇到问题时的无助。

下面将分享一下楼主的问题和可能的原因,以及遇到这类问题如何解决。楼主收到的PBS邮件提示在compute-0-4.local这台机器上面,没有找到/export/home/wj这个目录。

通过PBS集群的基本构造,楼主所在的集群使用了一个NFS系统,然后所有节点都挂载该目录来共享用户主目录、程序文件和数据文件。那么出现这种错误的原因是,在compute-0-4.local这台机器上面,没有执行NFS文件目录的挂载,将/export/home/目录挂载后,应该可以执行了。或者说不会报这个错误了。

PBS提交任务出现问题的解决思路。当我们使用qsub jobfile提交作业之后,会返回一个作业ID。通过这个作业ID,我们可以查询这个作业的运行情况。

1.执行qstat jobid查看作业基本状态,如果作业很快从Q->R->C状态,即作业很快结束。则执行如下命令

2.执行qstat -f jobid查看作业运行的详细信息,其中包括,输出文件,错误文件,以及提示信息,通过查看这些信息,我们可以找到具体的原因。

3.通过第2步中找到的具体报错信息,来对症下药,解决问题。很多时候,PBS作业提交出现问题,都不是PBS本身的问题,可能是软件环境配置问题、文件系统问题、作业脚本本身问题等。

希望能够帮助到大家。下次会专门写一封帖子介绍HPC软硬件环境,以及PBS作业系统使用时常见的问题。

### 安装配置 PBS Pro 排队调度系统 #### 准备工作 为了成功安装PBS Pro,在虚拟机环境中需先确认操作系统已更新至最新状态并安装必要的依赖包[^1]。 对于基于Red Hat的企业Linux版本,可以执行如下命令来准备环境: ```bash sudo yum update -y sudo yum install wget gcc make rpm-build openssl-devel libffi-devel python3-devel -y ``` 对于Debian及其衍生发行版,则应使用apt-get工具完成相同目的: ```bash sudo apt-get update sudo apt-get upgrade -y sudo apt-get install build-essential libssl-dev libffi-dev python3-dev -y ``` #### 下载与安装PBS Pro软件包 获取官方提供的PBS Professional二进制文件或源码压缩包。通常推荐采用预编译好的二进制形式以简化部署过程。假设已经下载好适用于当前操作系统的rpm/deb格式安装包到本地目录下,继续按照下面的方法进行安装。 针对RPM包管理器(如CentOS, RHEL),运行以下指令来进行安装: ```bash sudo rpm -ivh pbspro-server*.rpm pbspro-execution*.rpm pbspro-client*.rpm ``` 而对于DEB包管理系统(Ubuntu/Debian系列),则通过dpkg命令实现同样的功能: ```bash sudo dpkg -i pbspro*amd64.deb ``` 如果遇到任何未满足的依赖关系错误提示,请尝试再次利用yum/apt-get解决这些缺失项后再重试上述步骤。 #### 配置服务启动选项 编辑`/etc/pbs.conf`文件定义基本参数设置,包括但不限于服务器主机名、临时作业存储路径等重要属性。确保所有节点上的此配置保持一致以便于集群间的通信协作正常运作。 接着修改主配置文件`$PBS_HOME/server_priv/config`中的条目指向实际存在的资源位置和服务端口监听地址;同时调整权限使得pbs用户能够访问相应区域内的数据结构体。 最后一步是初始化数据库以及开启相关守护进程: ```bash sudo /opt/pbs/bin/qmgr -c "create queue batch" sudo /opt/pbs/bin/qmgr -c "set server scheduling=true" sudo systemctl enable pbs sudo systemctl start pbs ``` 此时应该可以通过客户端工具提交测试任务验证整个流程是否搭建无误。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值