学期快结束了,总结MPi开发环境配置里面遇到的比较深刻的东西。
在配置好节点间无密码登录、安装MPI软件包之后
剩下的工作就是mpdboot -n X (这里X代表的是集群里面有多少节点)
但是有时候启动的时候 会出现 failed to Connected nodeX on ......
就是mpi环境通信有问题。
这个问题解决思路:
1:保证 自己的机器和集群里面的机器有.mpd.conf 和mpd.host 文件 并且前者的权限600,后者要包含集群里面的所有节点
2:保证访问控制文件 允许别的机器访问(在配置NFS文件系统的时候)
3:要删除上一次的通信临时文件(大部分时间由于这个原因),操作方法 (假设我的mpi环境的用户名zxy) 就可以执行:rm -f /tmp*zxy*
执行完成以后 ,一般的该类问题就可以解决了。