如何在现代超级计算机上加速Lanczos - Montgomery方法及多节点GPU伪谱求解器
在现代科学与工程计算中,高效的算法和计算方法至关重要。本文将介绍如何在现代超级计算机上加速Lanczos - Montgomery方法,以及多节点GPU伪谱求解器的相关内容。
1. Lanczos - Montgomery方法性能分析
在Lanczos - Montgomery方法中,总共有$M/bp$次迭代,每个节点的总数据交换量为$4M / (srscp^2 ((p - 1)N + p(sr - 1)N + p(sc - 1)M))$。以20个节点为例,参数$sr = 5$,$sc = 4$,$p = 1$,矩阵大小$N = 3.17×10^8$,Zhores超级计算机每个节点的双向带宽为$2×10^{11}$比特/秒,经估算通信总成本约为10.7核心年,这与实验结果相符。
密集运算方面,每个节点的密集运算总复杂度为$M(12N / (srsc) + 25p^2b)b$比特操作。Intel Xeon Gold 6136处理器的每个核心每秒可执行约$6×10^{12}$比特操作。当$sr = 5$,$sc = 4$,$M = N = 3.17×10^8$,$p = 1$,$b = 512$时,该运算的总成本估算约为3.2核心年,而实验中超过了6核心年。这表明当前的四俄罗斯方法实现速度在CPU峰值性能下比朴素算法慢两倍。
总的时间估算约为27.5核心年,远低于实际的62核心年。可以通过加速稀疏矩阵分块和密集块运算来显著改进实现,而通信方面已接近最优。
2. 加速Lanczos - Montgomery方法的途径
为了让La
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



