StaccatoLab:大规模数据流计算的编程与执行模型
1. 引言
并行计算堪称一项令人瞩目的成就。单芯片性能已突破 10 TFLOPS(每秒 10¹³ 次浮点运算),而最快的超级计算机峰值性能约达 100 PFLOPS(每秒 10¹⁷ 次浮点运算)。假设时钟频率为 1 GHz,后者每秒每个时钟周期可进行 10⁸ 次运算。并行编程的挑战在于合理组织计算,让 10⁸ 个标量单元在每个时钟周期都保持忙碌,或者尽可能接近 100% 的利用率。
多年来,TOP500 项目一直在收集全球最强大超级计算机(TOP500:FLOPS)和最节能计算机(GREEN500:FLOPS/W)的统计数据。截至 2019 年 11 月,TOP500 和 GREEN500 排名前 20 的计算机情况如图 1 左图所示,目前能效的先进水平约为 10 GOPS/W。自 2015 年起,HPCG(HPCG 2019)基准测试项目提出了一种新的超级计算机排名指标。HPCG(高性能共轭梯度)“旨在模拟更接近一系列不同且重要应用的计算和数据访问模式”。图 1 右图展示了 HPCG 性能排名前 20 的计算机,以 HPCG/峰值 FLOPS 比率衡量,最佳 HPCG 性能仅约为其宣传性能的 2 - 3%!
例如,排名 TOP500 第一的 Summit DOE/SC/Oak Ridge 计算机,公布的性能为 148.6 PFLOPS,功耗 10.1 MW,对应能效为 14.7 GOPS/W。但其 HPCG 性能仅为 2.9 PFLOPS,能效更接近 0.3 GOPS/W。这些不尽人意的数据背后究竟隐藏着什么原因呢?通过深入研究快速傅里叶变换(FFT)的不同实现方式,我们或许能找到答案。
超级会员免费看
订阅专栏 解锁全文

46

被折叠的 条评论
为什么被折叠?



