并行计算中的ILU(k)预处理器与泊松求解器平滑器
1. OpenMP/MPI混合并行ILU(k)预处理器
1.1 硬件环境
测试环境是 “T2K开放超级计算机(东京联合集群)(T2K/Tokyo)”,它由日立公司在 “T2K开放超级计算机联盟” 框架下开发。T2K/Tokyo是基于AMD四核皓龙处理器的组合集群系统,拥有952个节点、15,232个核心和31TB内存,总峰值性能为140 TFLOPS。它是四个集群的集成系统,各集群的节点数分别为512、256、128和56。每个节点包含四个 “插槽” 的AMD四核皓龙处理器(2.3GHz),每个核心的峰值性能为9.2 GFLOPS,每个节点的峰值性能为147.2 GFLOPS。节点通过Myrinet - 10G网络连接。在本次工作中,最多使用了系统的64个节点。由于T2K/Tokyo基于缓存一致的非统一内存访问(cc - NUMA)架构,为了高效访问本地内存,需要精心设计软件和数据配置。采用了4x4混合编程模型(四个MPI进程 x 四个OpenMP线程,即每个插槽一个MPI进程,每个MPI进程四个OpenMP线程),这是该类型应用在T2K上最有效的情况。
1.2 混合并行执行的配置
考虑到二阶填充,将ILU(0)、ILU(1)和ILU(2)应用于迭代求解器。在HID - HID策略中,对ILU(1)和ILU(2)都应用HID(3),HID(3)是扩展的HID,其二级连接器扩展到三层厚度。另一方面,ILU(k)并行化所需的颜色数量随着填充级别k的增加而增加。在HID - MC策略中,将颜色数量设置为实现并行性所需的最小数量。数值实验中测试的颜色数量分别为:ILU(0)为8,ILU(1)为27,ILU(2
超级会员免费看
订阅专栏 解锁全文
27

被折叠的 条评论
为什么被折叠?



