并行数值求解与缓存行窃取问题研究
并行数值求解器实验
在并行数值求解领域,我们进行了一系列实验来评估基于分层分块数组(Hierarchically Tiled Arrays,HTA)的并行数值求解器的性能。实验使用的是版本 10.2 Update 5,报告的数值是相对于顺序 MKL 例程 DGBTRF 和 DGBTRS 的加速比。所有代码使用 Intel 编译器 icc 和 ifort 版本 11.1 Update 6 进行编译,所有 MPI 程序使用 mpich2 运行,共享内存 HTA 库运行在 TBB 版本 2.2 Update 3 上。
实验在两个不同的系统上进行:
- 一个是配备四个插槽 32 核 Intel Xeon L7555 处理器(运行频率 1.86 GHz)的系统,安装了 64GB 内存。
- 另一个是马萨诸塞大学的集群,有 8 个计算节点,每个节点配备两个 Intel Xeon X5550 处理器(运行频率 2.66 GHz),通过 InfiniBand 连接。
由于使用的是共享系统,所有程序的执行时间存在较大差异。为了控制这种差异,所有测试都运行了 8 次,并报告最小执行时间。
TU 方案测试
我们对一个阶数为 1048576、带宽为 513 的矩阵进行了 TU 方案测试。选择这个矩阵大小是为了将矩阵划分为大小均匀的块。图 8a 和 8c 展示了在 32 核共享内存系统上运行的共享内存 HTA、分布式内存 HTA 以及在共享内存系统和集群上运行的 Intel SpikePACK 相对于顺序 MKL 的加速比。
我们认为性能优势来自于实现上的差异。SpikePACK 在计算因子
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



