如何在现代超级计算机上实现快速的Lanczos - Montgomery算法?(上)
在当今的计算领域,高效地解决线性系统问题是许多科学和工程应用的核心需求。本文将深入探讨在现代超级计算机上实现快速的Lanczos - Montgomery算法的相关内容,包括计算过程、算法原理、实现细节以及性能分析。
1. 计算流程概述
整个计算过程主要分为三个关键步骤:过滤、线性系统求解和平方根计算。
- 过滤 :于2019年6月使用CADO - NFS库在斯科尔科沃科技学院的Arcuda集群的单节点上进行。总计算成本不到0.1核心年,但单节点需要超过1TB的RAM。经过去重后留下44亿个关系,去除单元素后仅剩下18亿个关系,去除团后关系数量减少到11.5亿个,合并步骤后得到一个大小约为3.17亿且每行平均非零元素数为170的最终矩阵。
- 线性系统求解 :从2019年12月到2020年1月,在斯科尔科沃科技学院的Zhores超级计算机上使用INM RAS实现的块Lanczos - Montgomery方法进行。计算过程中使用了不同的节点配置(20到40个节点),在38天内得到解。若所有计算都在20个节点上进行,求解将需要47天,总计算成本约为62核心年,其中约90%的时间(约56核心年)用于矩阵块积,这部分时间的21%(约11.5核心年)用于节点间通信,约10%的总时间(约6.2核心年)用于密集运算。
- 平方根计算 :于2020年2月在谷歌云服务的m1 - megamem - 96实例上使用CADO - NFS库进行。总计算成本不到0.1核心年,但每个平方根的计算需要
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



