8、OpenSHMEM的系统级透明检查点与错误处理

OpenSHMEM的系统级透明检查点与错误处理

1. OpenSHMEM检查点的可扩展性评估

在评估OpenSHMEM检查点的性能时,我们会随着规模的扩大来测量运行时开销、检查点开销和重启开销。这里使用了NAS BT和SP基准测试来衡量DMTCP的可扩展性。

以下是不同进程数(PE)下节点数量和每个节点上进程数量的分布情况:
| Num of PE’s | Num of nodes | Processes per node |
| — | — | — |
| 4 | 2 | 2 |
| 9 | 3 | 3 |
| 16 | 4 | 4 |
| 36 | 6 | 6 |
| 64 | 8 | 8 |
| 121 | 11 | 11 |
| 256 | 16 | 16 |

从运行时开销来看,DMTCP带来的运行时开销在所有情况下都小于1%。DMTCP的包装函数带来的运行时开销可以忽略不计,并且该成本会在运行期间进一步分摊。为了减少由于网络拓扑和流量导致的可变性,对于给定数量的PE,所有有DMTCP和没有DMTCP的运行都在同一组节点上进行。

平均检查点时间方面,对于NAS BT和SP基准测试,检查点时间会随着检查点图像数据总量线性增长。在最大规模(256个进程)时,写入磁盘的总数据量为2.2 TB,有效带宽为每秒20 GB。在所有情况下,检查点时间主要由将检查点数据写入稳定存储的时间决定,而检查点应用程序状态的成本可以忽略不计。

检查点图像大小方面,对于NAS BT和SP基准测试,单个进程的检查点图像大小与共享计算机节点的进程数量成正比。我们发现,检查点图

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值