8、并行数值求解与缓存行窃取问题研究

火锅TCP

于 2025-06-20 10:22:08 发布

阅读量35

点赞数

CC 4.0 BY-SA版权

分类专栏：并行计算语言与编译器的前沿探索文章标签：并行数值求解缓存行窃取 HTA

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/r7s8t/article/details/149376231

并行计算语言与编译器的前沿探索专栏收录该内容

34 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

并行数值求解与缓存行窃取问题研究

并行数值求解器实验

在并行数值求解领域，我们进行了一系列实验来评估基于分层分块数组（Hierarchically Tiled Arrays，HTA）的并行数值求解器的性能。实验使用的是版本 10.2 Update 5，报告的数值是相对于顺序 MKL 例程 DGBTRF 和 DGBTRS 的加速比。所有代码使用 Intel 编译器 icc 和 ifort 版本 11.1 Update 6 进行编译，所有 MPI 程序使用 mpich2 运行，共享内存 HTA 库运行在 TBB 版本 2.2 Update 3 上。

实验在两个不同的系统上进行：
- 一个是配备四个插槽 32 核 Intel Xeon L7555 处理器（运行频率 1.86 GHz）的系统，安装了 64GB 内存。
- 另一个是马萨诸塞大学的集群，有 8 个计算节点，每个节点配备两个 Intel Xeon X5550 处理器（运行频率 2.66 GHz），通过 InﬁniBand 连接。

由于使用的是共享系统，所有程序的执行时间存在较大差异。为了控制这种差异，所有测试都运行了 8 次，并报告最小执行时间。

TU 方案测试

我们对一个阶数为 1048576、带宽为 513 的矩阵进行了 TU 方案测试。选择这个矩阵大小是为了将矩阵划分为大小均匀的块。图 8a 和 8c 展示了在 32 核共享内存系统上运行的共享内存 HTA、分布式内存 HTA 以及在共享内存系统和集群上运行的 Intel SpikePACK 相对于顺序 MKL 的加速比。

我们认为性能优势来自于实现上的差异。SpikePACK 在计算因子

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。