之前在windows下用虚拟机跑程序,后来被学长鄙视,就改用linux平台,结果由于种种原因virtualbox一装虚拟机就挂掉,所以只好在物理节点上做实验了。
其实和Ubuntu下面差不多的Ubuntu下配置Slurm,没有那么简单的apt-get使用,就从源码编译。
munge的路径好像不太一样,不是/xxxx而是/usr/local/xxxx。后面还会说到这个问题。
SLURM会提示出错
plugin_load_from_file: dlopen(/usr/local/lib/slurm/crypto_munge.so): libmunge.so.2: cannot open shared object file: No such file or directory
还是缺munge的包,上网搜一个libmunge.so.2下就好了.
查看版本号的方式
uname -a
cat /etc/issue
lsb_release -a
cat /etc/redhat-release
不过我用这几个命令出来的结果不一样啊,有的说是EL4,有的说是EL5,所以我就下了旧版本的库。。。
运行slurm报错没有找到/var/run/munge/munge.socket.2。
呵呵。
到/var/run里面去建个链接到/usr/local/var/run/munge就好了。
因为是物理机器,所以比虚拟机的环境要复杂一点点。比如我的几个节点的时间是不同步的。这样munge就不能正常工作了。
date
显示时间
date -s “Sep 15 12:30:07"
修改时间为9月15xxxxxx
因为每台机器都不一样,所以在每台机器上建

本文介绍了在RedHat系统上安装SLURM集群管理软件的过程,包括遇到的错误和解决方法,如munge库的缺失、版本识别问题、时间同步和用户权限设置等。
最低0.47元/天 解锁文章
153

被折叠的 条评论
为什么被折叠?



