27、消息传递编程：MPI集体通信、进程组、通信器与拓扑结构详解

root9

于 2025-10-20 09:36:06 发布

阅读量14

点赞数

CC 4.0 BY-SA版权

分类专栏：并行编程：从多核到集群文章标签： MPI 集体通信死锁

本文链接：https://blog.youkuaiyun.com/root9/article/details/154638606

并行编程：从多核到集群专栏收录该内容

48 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

消息传递编程：MPI集体通信、进程组、通信器与拓扑结构详解

1. 集体通信中的死锁问题

1.1 集体通信操作概述

在消息传递编程里，集体通信操作有着不一样的表现，这取决于MPI实现对内部系统缓冲区的运用。若不小心使用集体通信操作，就可能引发死锁。

1.2 死锁示例

1.2.1 两个MPI进程执行MPI_Bcast()操作

以下是两个MPI进程以相反顺序执行两个MPI_Bcast()操作的代码：

switch (my_rank) {
case 0: MPI_Bcast (buf1, count, type, 0, comm);
        MPI_Bcast (buf2, count, type, 1, comm);
        break;
case 1: MPI_Bcast (buf2, count, type, 1, comm);
        MPI_Bcast (buf1, count, type, 0, comm);
}

执行这段程序可能会出现两种错误情况：
- MPI运行时系统可能会匹配每个进程的第一个MPI_Bcast()调用，这会导致错误，因为两个进程指定了不同的根进程。
- 运行时系统可能会匹配具有相同根进程的MPI_Bcast()调用，若不使用系统缓冲区或者系统缓冲区过小，就可能发生死锁。集体通信操作总是阻塞的，所以若不使用或使用过小的系统缓冲区，操作就会同步。