17、StaccatoLab：大规模数据流计算的编程与执行模型

最新推荐文章于 2025-07-25 12:11:49 发布

net55

最新推荐文章于 2025-07-25 12:11:49 发布

阅读量55

点赞数

CC 4.0 BY-SA版权

分类专栏：多处理器系统芯片：从5G到6G的技术跃迁文章标签： StaccatoLab 数据流编程并行计算

本文链接：https://blog.youkuaiyun.com/net55/article/details/149734489

多处理器系统芯片：从5G到6G的技术跃迁专栏收录该内容

24 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

StaccatoLab：大规模数据流计算的编程与执行模型

1. 引言

并行计算堪称一项令人瞩目的成就。单芯片性能已突破 10 TFLOPS（每秒 10¹³ 次浮点运算），而最快的超级计算机峰值性能约达 100 PFLOPS（每秒 10¹⁷ 次浮点运算）。假设时钟频率为 1 GHz，后者每秒每个时钟周期可进行 10⁸ 次运算。并行编程的挑战在于合理组织计算，让 10⁸ 个标量单元在每个时钟周期都保持忙碌，或者尽可能接近 100% 的利用率。

多年来，TOP500 项目一直在收集全球最强大超级计算机（TOP500：FLOPS）和最节能计算机（GREEN500：FLOPS/W）的统计数据。截至 2019 年 11 月，TOP500 和 GREEN500 排名前 20 的计算机情况如图 1 左图所示，目前能效的先进水平约为 10 GOPS/W。自 2015 年起，HPCG（HPCG 2019）基准测试项目提出了一种新的超级计算机排名指标。HPCG（高性能共轭梯度）“旨在模拟更接近一系列不同且重要应用的计算和数据访问模式”。图 1 右图展示了 HPCG 性能排名前 20 的计算机，以 HPCG/峰值 FLOPS 比率衡量，最佳 HPCG 性能仅约为其宣传性能的 2 - 3%！

例如，排名 TOP500 第一的 Summit DOE/SC/Oak Ridge 计算机，公布的性能为 148.6 PFLOPS，功耗 10.1 MW，对应能效为 14.7 GOPS/W。但其 HPCG 性能仅为 2.9 PFLOPS，能效更接近 0.3 GOPS/W。这些不尽人意的数据背后究竟隐藏着什么原因呢？通过深入研究快速傅里叶变换（FFT）的不同实现方式，我们或许能找到答案。

2. FFT 并行性

会员秒杀 ¥9.9 重磅福利

超级会员免费看