计算与存储领域的关键技术解析
1. LU 分解在 Cell 宽带引擎上的应用
1.1 动态分布与静态分布对比
在 Cell 宽带引擎上进行 LU 分解时,任务分配策略有动态分布和静态分布两种。动态分布除了能实现负载均衡外,还允许 SPEs 充分探索任务级并行性。在静态分布中,即使其他 SPE 处于空闲状态,一个就绪任务也可能需要等待特定的 SPE 空闲。不过,动态分布是以牺牲数据局部性为代价的,但预取技术足以隐藏 LU 分解的数据传输延迟,因此动态分布比静态分布更具吸引力。
通过对求解 128×128 矩阵在不同块大小下使用 2D 交错分布和动态分布的性能对比(如图 1 所示),可以发现:当块大小为 16 和 32 时,动态分布的最小和最大时钟数之间的差异比静态分布小,这表明动态分布的负载更均衡;当块大小为 8 时,差异较大可能是由于动态分布的随机性。总体而言,在最大时钟数方面,动态分布比静态分布的性能高出 1 到 7 倍。
| 分布类型 | 块大小 8 | 块大小 16 | 块大小 32 |
|---|---|---|---|
| 2D 交错分布 | 差异较大 | 差异较大 | 差异较大 |
| 动态分布 | 差异较大(可能因随机性) | 差异较小 | 差异较小 |
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



