11、场分裂比奥求解器与GPU加速矩阵指数法在不同问题中的应用

study

于 2025-09-18 15:25:29 发布

阅读量22

点赞数

CC 4.0 BY-SA版权

分类专栏：超级计算前沿洞察文章标签：场分裂比奥求解器 GPU加速矩阵指数法比奥问题

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/study/article/details/152695957

超级计算前沿洞察专栏收录该内容

31 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

场分裂比奥求解器与GPU加速矩阵指数法在不同问题中的应用

1. 场分裂比奥求解器

1.1 直接和迭代算法的实现

在求解比奥问题时，采用了直接求解器和迭代求解器两种方法。直接求解器PARDISO取自英特尔MKL库，其执行分为三个步骤，在MKL手册中有详细描述。其中，“Factorize”步骤是直接算法的瓶颈，“Solve”步骤所需的浮点运算次数（FLOPS）较少，“Reordering”步骤仅包含整数运算。

迭代BCGStab算法的主要瓶颈可能出现在“Reorder/Factorize B”、“B⁻¹b”、“Âpj”等初步步骤，或者每次迭代步骤中计算的两个乘积“Âpj”和“Âsj”。当迭代次数较多时，Â{pj, sj}操作所需的时间可能会超过因式分解的时间。其他迭代操作，如点积、向量和标量 - 向量乘积的FLOPS显著较少，并未进行优化编码。

为了执行重排序/因式分解和求解步骤，与直接求解器一样使用了英特尔MKL PARDSIO。由于预处理器B的特殊结构（只需对A0和A2进行因式分解），使用PARDSIO处理预处理器B的复杂度低于处理矩阵A。

该场分裂求解器用C语言实现，并使用英特尔编译器以默认优化方式编译，适用于配备CPU E5 - 2690、20核×3.00 GHz和512 G RAM的英特尔至强硬件。

1.2 数值实验

在数值实验中，对比了直接求解器和迭代求解器在不同网格离散化的比奥问题上的性能，网格尺寸包括500 × 500、1000 × 1000、2000 × 2000和4000×4000。测量了FLOPS、内存使用、可扩展性和性能。

比奥问题的模型是一个具有裂缝的

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符 | 博主筛选后可见

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。