OpenSHMEM的系统级透明检查点与错误处理
1. OpenSHMEM检查点的可扩展性评估
在评估OpenSHMEM检查点的性能时,我们会随着规模的扩大来测量运行时开销、检查点开销和重启开销。这里使用了NAS BT和SP基准测试来衡量DMTCP的可扩展性。
以下是不同进程数(PE)下节点数量和每个节点上进程数量的分布情况:
| Num of PE’s | Num of nodes | Processes per node |
| — | — | — |
| 4 | 2 | 2 |
| 9 | 3 | 3 |
| 16 | 4 | 4 |
| 36 | 6 | 6 |
| 64 | 8 | 8 |
| 121 | 11 | 11 |
| 256 | 16 | 16 |
从运行时开销来看,DMTCP带来的运行时开销在所有情况下都小于1%。DMTCP的包装函数带来的运行时开销可以忽略不计,并且该成本会在运行期间进一步分摊。为了减少由于网络拓扑和流量导致的可变性,对于给定数量的PE,所有有DMTCP和没有DMTCP的运行都在同一组节点上进行。
平均检查点时间方面,对于NAS BT和SP基准测试,检查点时间会随着检查点图像数据总量线性增长。在最大规模(256个进程)时,写入磁盘的总数据量为2.2 TB,有效带宽为每秒20 GB。在所有情况下,检查点时间主要由将检查点数据写入稳定存储的时间决定,而检查点应用程序状态的成本可以忽略不计。
检查点图像大小方面,对于NAS BT和SP基准测试,单个进程的检查点图像大小与共享计算机节点的进程数量成正比。我们发现,检查点图
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



