3、集群中检查点与重启操作的能耗特性研究

集群中检查点与重启操作的能耗特性研究

1. 引言

高性能计算(HPC)在提升计算能力的同时,能耗也在不断增加。由于为这类计算机供电存在限制,因此了解这些系统的能耗行为,找到限制和降低能耗的方法十分必要。目前,HPC中最常用的容错方法是使用检查点的回滚恢复方法,但这种方法会增加应用程序执行的额外能耗。本文旨在确定在执行检查点和重启(C/R)操作时,影响同构集群中计算节点能耗的因素。

2. 相关工作

之前有许多关于C/R操作能耗的研究:
- 部分研究评估了带消息日志的协调和非协调C/R的能量行为,还提出了分析模型来预测这些协议在百亿亿次计算规模下的行为。
- 一些研究使用分析模型比较复制和协调C/R的执行时间和能耗。
- 还有研究提出了C/R节能框架,如用大的单核心操作替换小的I/O操作,用一个核心执行节点所有进程的副本等。

本文聚焦于系统级的协调C/R,通过外部物理仪表测量检查点和重启操作的耗散功率,且未发现评估C状态和NFS配置对C/R操作能耗影响的相关研究。

3. 影响能耗的因素

能耗可通过功率和时间的乘积计算,影响这两个参数的因素可分为以下几类:
|因素类别|具体因素|影响说明|
| ---- | ---- | ---- |
|硬件|处理器的C状态和P状态|C0为执行状态,C1 - Cx为非活动状态;P0表示以最大性能和功率需求执行,随着P状态数字增加,性能和功率需求降低。C和P状态会影响功率和时间,进而影响C/R操作能耗|
|硬件|CPUFreq子系统|包含缩放 governors和缩放 drivers,不同的缩放 governors代表

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值