部署Slurm的过程中,计算节点执行“slurmd -C”命令后,报错。
[root@node2 ~]# slurmd -C
slurmd: error while loading shared libraries: libhwloc.so.5: cannot open shared object file: No such file or directory
在此计算节点查找不到libhwloc.so.5文件。
[root@node2 ~]# find / -name libhwloc.so.5
[root@node2 ~]#
系统环境为CentOS7.9
解决方法:
在管理节点可以查到/usr/lib64/libhwloc.so.5文件:
[root@node1 ~]# find / -name libhwloc.so.5
/usr/lib64/libhwloc.so.5
查找需要此文件的软件包:
[root@node1 ~]# yum provides /usr/lib64/libhwloc.so.5
...
hwloc-libs-1.11.8-4.el7.x86_64 : Run time libraries for the hwloc
Repo : base
Matched from:
Filename : /usr/lib64/libhwloc.so.5
hwloc-libs-1.11.8-4.el7.x86_64 : Run time libraries for the hwloc
Repo : @base
Matched from:
Filename : /usr/lib64/libhwloc.so.5
在计算节点安装查询到的这个软件包:
[root@node2 ~]# yum -y install hwloc-libs-1.11.8-4.el7.x86_64
安装软件包后,可以查询到libhwloc.so.5文件,也可以正常执行“slurmd -C”命令。
[root@node2 ~]# find / -name libhwloc.so.5
/usr/lib64/libhwloc.so.5
[root@node2 ~]# slurmd -C
NodeName=node2 CPUs=1 Boards=1 SocketsPerBoard=1 CoresPerSocket=1 ThreadsPerCore=1 RealMemory=972
UpTime=0-06:28:32
在部署Slurm过程中,计算节点执行slurmd命令时遇到libhwloc.so.5库文件缺失的错误。通过在管理节点查找该文件并确定其属于hwloc-libs软件包,然后在计算节点上使用yum安装该包,成功解决了问题,使得slurmd命令能够正常执行。
3211

被折叠的 条评论
为什么被折叠?



