HPC节点中应用感知的动态热控制
1. 引言
在高性能计算(HPC)系统中,热管理是一个关键问题。随着处理器性能的不断提升,散热需求也日益增加,过高的温度不仅会影响系统性能,还可能导致硬件损坏。因此,如何有效地管理HPC系统的温度,提高系统性能,成为了研究的热点。本文将介绍一种应用感知的动态热管理解决方案,旨在提高热受限HPC系统的性能。
2. 相关工作
目前,基于动态电压频率调整(DVFS)策略的热感知工作负载分配有多种技术:
- 在线优化策略 :基于预测模型和嵌入式传感器读取系统当前温度,如[4,10,11,32]。
- 离线分配调度方法 :依赖简化的热模型,通常嵌入目标平台或模拟芯片温度,如[24,26]。
如今,热管理工作涵盖从移动设备到超级计算机和HPC系统等大规模并行机器。不同系统的热约束来源不同,如移动系统的热约束来自用户体验,而HPC系统的冷却功率成本受多种因素影响,包括IT功耗、冷却控制策略和环境温度等。同时,功耗与工作负载执行和计算阶段相互交织,可能导致节点和CPU之间出现高热异质性,过度配置冷却设计会导致严重的效率低下。
此外,还有一些关于热管理的研究,如提取预测热模型、利用热异质性进行任务分配、解决热约束下的映射问题等,但这些研究都存在一定的局限性,如未考虑核心数量多于任务数量的情况、未处理任务分配问题或未考虑热约束系统中CPU性能受限等。
3. HPC的工作负载和热建模
动态热管理策略旨在通过调整处理元件的性能来降低冷却工作量和功耗,确保安全的工作温度。
超级会员免费看
订阅专栏 解锁全文
1006

被折叠的 条评论
为什么被折叠?



