集群中检查点与重启操作的能耗特性研究
1. 引言
高性能计算(HPC)在提升计算能力的同时,能耗也在不断增加。由于为这类计算机供电存在限制,因此了解这些系统的能耗行为,找到限制和降低能耗的方法十分必要。目前,HPC中最常用的容错方法是使用检查点的回滚恢复方法,但这种方法会增加应用程序执行的额外能耗。本文旨在确定在执行检查点和重启(C/R)操作时,影响同构集群中计算节点能耗的因素。
2. 相关工作
之前有许多关于C/R操作能耗的研究:
- 部分研究评估了带消息日志的协调和非协调C/R的能量行为,还提出了分析模型来预测这些协议在百亿亿次计算规模下的行为。
- 一些研究使用分析模型比较复制和协调C/R的执行时间和能耗。
- 还有研究提出了C/R节能框架,如用大的单核心操作替换小的I/O操作,用一个核心执行节点所有进程的副本等。
本文聚焦于系统级的协调C/R,通过外部物理仪表测量检查点和重启操作的耗散功率,且未发现评估C状态和NFS配置对C/R操作能耗影响的相关研究。
3. 影响能耗的因素
能耗可通过功率和时间的乘积计算,影响这两个参数的因素可分为以下几类:
|因素类别|具体因素|影响说明|
| ---- | ---- | ---- |
|硬件|处理器的C状态和P状态|C0为执行状态,C1 - Cx为非活动状态;P0表示以最大性能和功率需求执行,随着P状态数字增加,性能和功率需求降低。C和P状态会影响功率和时间,进而影响C/R操作能耗|
|硬件|CPUFreq子系统|包含缩放 governors和缩放 drivers,不同的缩放 governors代表
超级会员免费看
订阅专栏 解锁全文
491

被折叠的 条评论
为什么被折叠?



