多核处理器电源管理的进展
1. 高性能计算架构概述
高性能计算集群是世界上最快的计算系统之一。Top500 会定期列出全球 500 个最强大的计算集群,这些计算机可被视为超级计算机级别。高性能计算系统由数千个计算节点组成的集群构成,每个计算节点有多个计算引擎。在 2017 年 11 月的 Top500 列表中,大多数超级计算机(398 台)基于多核处理器,22 台使用加速器,471 台使用英特尔多核处理器。
用户通过批处理队列系统提交应用程序,该系统保证在应用程序提交期间能独占所需的资源数量。HPC 应用程序是单程序多数据代码,同一应用程序的可执行文件会在集群的不同节点上多次复制。每个实例处理问题域和数据的一部分,并与其他实例通信中间结果,以全局解决应用程序的不同计算步骤。因此,HPC 应用程序可看作是在分布式环境中执行的多个任务的组合,这些任务在所有实例之间交换消息。
通信延迟和每个任务工作量的不平衡会延迟同步点和应用程序的执行时间。基于自旋锁的屏障比基于中断的同步原语更受青睐,因为它们更快,能让每个节点即使在等待期间也不会“休息”。因此,需要电源管理解决方案来减少这些期间浪费的能量。
2. 高性能计算系统的电源管理挑战
高功率和高能耗是 HPC 系统发展的重要挑战。例如,目前最强大的超级计算机太湖之光达到 93.01 PetaFLOPS,仅 IT 功耗就达 15.37 MW;其前身天河二号达到 33.2 PetaFlops,功耗为 17.8 MW,考虑冷却基础设施后增至 24 MW。未来超级计算机数据中心可接受的功耗值为 20 MW。此外,每个处理引擎本身也有功率限制,处理器的功耗受散热和电源引脚最大电流的限制。例如,环境温度升高导