8、提升规则和各向异性 3D 环形超级计算机性能的可扩展节点分配

wasm7browser

于 2025-06-20 14:09:08 发布

阅读量43

点赞数

CC 4.0 BY-SA版权

分类专栏：探索并行计算的新时代：MPI的进展与挑战文章标签： MPI拓扑函数节点分配各向异性3D环形超级计算机

本文链接：https://blog.youkuaiyun.com/wasm7browser/article/details/149592477

探索并行计算的新时代：MPI的进展与挑战专栏收录该内容

42 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

提升规则和各向异性 3D 环形超级计算机性能的可扩展节点分配

1. MPI 拓扑函数与性能分析

在多核心节点通过多级 InfiniBand 网络连接的环境中，MPI 非分布式图和笛卡尔函数的设计与实现十分关键。以 LAMMPS - couple 为例，在 32 核和 128 核的情况下，其通信模式存在显著差异。
- 通信模式差异 ：32 核时，进程与其邻居的通信几乎是对称的；而 128 核时，通信模式变为不对称，一个进程主要与两个伙伴进行通信。这使得 128 核时非加权和加权/网络感知结果之间的差异更大，重排序在 128 核的情况下更为有效。
- 拓扑感知映射优势 ：拓扑感知映射在 128 核集群上相较于块映射和循环映射，在应用通信时间和运行时间上有明显改善。

同时，MPI_Graph_create 的实现会带来一定的开销，以下是 LAMMPS 应用中创建通信器的时间开销表格：
| 系统 | 作业大小（进程数） | 普通实现（ms） | 非加权图（ms） | 加权图（ms） | 网络感知图（ms） |
| ---- | ---- | ---- | ---- | ---- | ---- |
| 集群 1 | 8 | 0.3 | 7.3 | 7.3 | 7.9 |
| 集群 1 | 16 | 0.3 | 7.6 | 7.7 | 8.1 |
| 集群 1 | 32 | 0.5 | 8.6 | 8.7 | 9 |
| 集群 2 | 128 | 5.1 | 31.3 | 31.7 | 31.7 |

这个一次性的开销会在应用运行时间中被分摊。 <