注意:保证各节点系统用户名和mpich2安装路径文件名相同
一. MPICH安装
1. 下载MPICH
网址:http://www.mpich.org/static/downloads/
下载 mpich2-1.0.2p1,因为高级版本已经不支持mpd(mpi管理器),可以下载到任意目录
2、解压缩
tar -zxvf mpich2-1.0.2p1.tar.gz
3、进入mpich2解压目录
cd mpich2-1.0.1
4、设置安装目录
./configure
5、编译
make
6、安装
make install
7. 测试mpich是否安装好
which mpicc
which mpirun
which mpiexec
我们这里是默认安装, 可以自定义安装目录,然后在.bashrc中把mpich安装文件的bin添加到环境变量PATH下,然后source .bashrc 执行生效
二. mpd配置
1. 在用户主目录下(/home/liu)新建文件.mpd.conf
mkdir .mdp.conf
在文件添加 secretword=×××××,×××××为任意字符串,各节点保持一致
chmod 600 /home/liu/.mpd.conf
2. 在用户主目录下新建文件 mpd.hosts
内容:
Master
node1
node1
......
3. 测试mpd是否配置好
mpd & (启动mpi)
mpdtrace (打印启动mpi机器名)
mpdallexit (退出mpi)
三. 各节点均如此安装
四. 测试集群系统
1.通过mpd.hosts运行集群系统(在任意节点主目录下)
mpdboot -n number -f mpd.hosts number为要起动的机器个数
mpdtrace
mpdallexit
2.测试运行MPICH的例子程序
mpdboot -n 4 -f mpd.hosts 启动4台机器
mpirun -n number /usr/MPICH-install/examples/cpi number为使用的进程数
mpdallexit
3.如果测试不能通过,请进行第四步问题检查
五、问题解决
1、通过mpdcheck获得一写帮助信息
mpdcheck -pc
2、查错
mpdcheck -l
3、通过mpd.hosts文件查错
mpdcheck -f mpd.hosts 如果无错误
mpdcheck -f mpd.hosts -ssh
4、如果上述无错误,可略过此步
对任意两台机器进行查错
m1: mpdcheck -s 输出主机名host和端口port
m2: mpdcheck -c host port
注意:以上4步都是在没有运行mpd的情况下进行的
5、mpd查错
m1: #mpd -e & 返回使用的端口
m2: #mpd -h m1 -p echoed_port_m1 &
注意:有的时候防火墙造成测试不能通过
sudo ufw disable 关闭防火墙
sudo ufw enable 打开防火墙
以上测试通过,集群系统就建成了。