提升规则和各向异性 3D 环形超级计算机性能的可扩展节点分配
1. MPI 拓扑函数与性能分析
在多核心节点通过多级 InfiniBand 网络连接的环境中,MPI 非分布式图和笛卡尔函数的设计与实现十分关键。以 LAMMPS - couple 为例,在 32 核和 128 核的情况下,其通信模式存在显著差异。
- 通信模式差异 :32 核时,进程与其邻居的通信几乎是对称的;而 128 核时,通信模式变为不对称,一个进程主要与两个伙伴进行通信。这使得 128 核时非加权和加权/网络感知结果之间的差异更大,重排序在 128 核的情况下更为有效。
- 拓扑感知映射优势 :拓扑感知映射在 128 核集群上相较于块映射和循环映射,在应用通信时间和运行时间上有明显改善。
同时,MPI_Graph_create 的实现会带来一定的开销,以下是 LAMMPS 应用中创建通信器的时间开销表格:
| 系统 | 作业大小(进程数) | 普通实现(ms) | 非加权图(ms) | 加权图(ms) | 网络感知图(ms) |
| ---- | ---- | ---- | ---- | ---- | ---- |
| 集群 1 | 8 | 0.3 | 7.3 | 7.3 | 7.9 |
| 集群 1 | 16 | 0.3 | 7.6 | 7.7 | 8.1 |
| 集群 1 | 32 | 0.5 | 8.6 | 8.7 | 9 |
| 集群 2 | 128 | 5.1 | 31.3 | 31.7 | 31.7 |
这个一次性的开销会在应用运行时间中被分摊。 <
超级会员免费看
订阅专栏 解锁全文

2710

被折叠的 条评论
为什么被折叠?



