高性能计算中检查点与重启操作的能耗分析及GPU集群能耗研究
1. 检查点与重启操作的能耗影响因素
在高性能计算中,检查点(Checkpoint)和重启(Restart)操作的能耗受多种因素影响,下面将详细介绍这些因素。
1.1 处理器P状态的影响
处理器的P状态(不同的时钟频率状态)对检查点和重启操作的能耗和时间有显著影响。随着时钟频率的增加,检查点和重启操作的功耗呈严格递增趋势,而时间则呈严格递减趋势。并且,检查点操作在功耗和时间上受时钟频率变化的影响更大。
|平台|检查点功耗变化|重启功耗变化|检查点时间变化|重启时间变化|
| ---- | ---- | ---- | ---- | ---- |
|平台1|随频率增加而增加|随频率增加而增加|随频率增加而减少|随频率增加而减少|
|平台2|随频率增加而增加|随频率增加而增加|随频率增加而减少|随频率增加而减少|
1.2 处理器C状态的影响
在读写检查点文件时,处理器可能会有空闲时刻,从而发生C状态之间的转换,这会影响处理器的功耗。通过在平台1和平台2上对处理器的不同频率进行C状态启用和禁用的C/R操作实验,得到以下结果:
- 两个平台上,启用C状态时的功耗测量显示出更大的变异性,特别是在平台1的重启操作中。
- 随着处理器频率的增加,启用和禁用C状态时的功耗差异增大。在平台1上,检查点操作在最大频率时差异约为9%,重启操作在2.533 GHz频率时差异为10%;在平台2上,检查点和重启操作在2.6 GHz频率时差异分别为6%和5%。
- 启用C状态有利于降低能耗。在平台1上,检查点操作禁用C状态时能耗最高可增