云数据中心电源管理策略与实践
1. 电源管理服务策略
在数据中心的运营中,有多种电源管理策略被采用,这些策略有助于优化能源使用、应对各种电源相关事件,确保业务的连续性。
-
动态工作负载重新平衡
:当发生热或电源事件时,将工作负载从一组服务器转移到另一组。它不一定需要像虚拟机迁移这样的高级功能,简单的操作如关闭一组服务器并在其他地方重新启动工作负载即可实现。
-
云运营商电源管理
:指云运营商在数据中心实施的全局电源策略。
-
自动需求响应(ADR)
:允许电力供应商激活与数据中心预先协商好的限电协议。在电力供应紧张时期,如供应商发电资源不足或因输电能力有限无法从外部引入电力时,这对区域电源优化非常有用。
-
交互式能源政策
:本质上是一个在服务经济层面运行的电源管理云。它是一个框架,能够在区域层面实施能源政策,跨越不同公司、政府甚至国际边界,使分布式能源资源参与市场,并利用价格信号。
-
云级政策
:涉及区域或全国范围内的能源政策协调,例如减少碳足迹的政策,或跨多个能源资源的政策,涵盖云服务提供商(CSPs)、云生态系统和政府机构。
2. 服务器电源控制
服务器电源控制是标准大容量服务器(SHVs)的常见功能,它使用IPMI协议的带外机制,管理实体可以命令服务器将功耗上限设置为某个特定水平,如270瓦。
-
电源封顶的影响
:
- 当电源封顶激活且功耗超过270瓦时,由于控制机制会降低处理器核心的工作频率,性能会下降。
- 若服务器当前运行功耗低于270瓦,设置270瓦的封顶会减少性能余量,使服务器在工作负载需求增加时响应变慢。
-
电源封顶的工作原理
:通过一个简单的控制反馈回路实现。嵌入在芯片组处理器控制中心的微控制器(如Intel管理引擎ME)运行ME固件中的应用程序Intel Node Manager。服务器配备符合PMBus标准的电源供应单元(PSU),通过I2C总线连接电源和ME,使ME能够实时采样服务器功耗。如果有封顶设置,ME固件会命令CPU调整功耗,直到PSU中的传感器显示服务器功耗在目标范围内。
graph LR
A[CPU] --> B[Intel® Node Manager (PCH)]
C[Instrumented power supply] --> B
B --> D[Actual power]
B --> E[Set power]
D --> F[Difference signal]
E --> F
- Node Manager的优势 :它是一个嵌入式代理,存在于每个服务器的固件中,无需在服务器中运行软件代理。软件代理采样电源的速度较慢,而ME每10到100毫秒就能采样一次电源,确保精确的电源读数。此外,固件代理是带外的,独立于操作系统运行,即使操作系统挂起或不活动也能正常工作,且运营成本较低。
- ME调节CPU功耗的方式 :ME通过平台环境控制接口(PECI)与CPU通信,调用CPU中的RAPL功能,设置CPU的目标功耗,以符合服务器的目标电源。
3. 电源管理ASCP解决方案方法
电源管理功能针对特定场景,可包含宏观架构中的一个或多个级别。采用分而治之的方法将复杂场景分解为涉及少数逻辑级别的解决方案子系统,理想情况下不超过两到三个级别。同时,利用不同级别在各自时间尺度上运行的特点,简化对不同子系统的分析。
以Open Compute Project(OCP)的Open Cloud Server(OCS)平台为例,该平台的电源管理设计具有高效和节省硬件的特点。传统机架设计为每个节点配备两个PSU,采用1 + 1冗余,PSU通常在额定功率的一小部分下运行,效率较低。而OCS设计使用一组六个PSU为机箱中的所有节点供电,实现5 + 1冗余(除最重配置外)。
-
减少硬件成本的方法
:为PSU配置正常运行时的最大效率功率,而不是峰值功率,通过主动控制(如电源封顶)处理偶尔的功率峰值,避免传统的PSU过度配置。
-
PSU故障恢复
:当一个PSU发生故障时,需要立即减少功率需求,以确保机箱内节点在剩余电源的工作范围内运行。解决方案分为三个阶段:
1.
节流(Throttling)
:故障的PSU发出SMBAlert#信号,触发整个机箱的恢复序列。该信号在节点中被路由到PROCHOT#信号,命令PCU将CPU的所有核心置于低频率模式(LFM),将正常工作频率降低约三分之二至约800 MHz,功率需求也在不到4毫秒内降低约三分之二。
2.
紧急默认电源封顶(EDPC)
:每个节点的BMC独立设置一个预定的电源封顶值,以应对大多数PSU故障场景。BMC可以在不到一秒内完成设置,恢复一定的性能,使应用程序继续运行。
3.
机箱优化电源封顶
:机箱管理器根据工作的PSU数量、剩余可用功率和每个节点的工作负载优先级,建立故障后的工作范围。在最严重的情况下,如果封顶措施不足以恢复高优先级应用的可接受性能,机箱可以关闭运行不太关键应用的节点。
4. 电源管理对业务连续性的重要性
在云环境中,为服务器供电的能源成本在总拥有成本(TCO)中占比显著。例如,一台以100%占空比消耗350瓦功率的服务器,假设电价为每千瓦时0.11美元,每年的能源成本约为337美元,三年的使用寿命成本约为1000美元,约占硬件TCO的20%(不包括冷却和人工等其他成本)。
从业务角度来看,机会成本可能比能源成本更重要。服务器因电源事件不可用,导致工作负载丢失,会造成收入损失和声誉损害。电源和热事件是服务器停机的主要原因,因此在业务连续性规划中,电源和热管理至关重要。
-
传统应对措施的弊端
:传统上,通过资源过度配置(如配置额外的电源供应或从独立电路馈电的PDU)来管理电源短缺,但这会增加成本,且在某些情况下,解决方案在一个层面可能会成为另一个层面的问题,如数据中心电源的过度分配会导致电源闲置,降低电源和空间利用率,影响投资回报率。
-
业务连续性的使用场景
:业务连续性在数据中心设计和运营中涉及一系列措施和流程,以确保在紧急情况下继续运营。在电源和热突发事件中,保持业务连续性的关键是管理电源供需之间的潜在不平衡。由于电源供应缺乏弹性,需求管理成为主要选择。
| 突发事件 | 使用场景 | 行动 | 时间尺度 |
| — | — | — | — |
| 公用电源完全中断 | 最大化加油窗口 | 根据工作负载优先级进行电源封顶 | 1天到1周 |
| 局部热点 | 减少热量产生 | 根据工作负载优先级进行电源封顶,并进行温度监测,重新配置通风 | 1小时到1天 |
| 双馈系统中PDU丢失 | 协调断路器策略 | 调节机箱节流 | 1 - 10秒 |
| PSU丢失 | 减少PSU过度配置 | 快速调节机箱节流 | 10 - 100毫秒 |
5. 应对不同电源相关突发事件的具体情况
- 公用电源完全中断 :系统会切换到电池备用电源几分钟,以便热电联产系统启动。电池组需要持续足够长的时间,让柴油发动机或燃气轮机启动并达到满负荷。之后,关键是要确保燃料能够持续到下一次补给。在灾难规划中,不能假设正常的补给时间,因为可能会出现如高速公路中断、炼油厂和管道损坏等情况。
- 局部热点 :可能由于工作负载强度或特定的局部循环模式而产生。通过重新平衡工作负载(如将热点区域的工作负载转移到数据中心的较冷区域)可以解决一些热点问题。持续的热点可能表明数据中心热设计存在缺陷,需要通过电源、热和可能的CFD分析来改进热设计。此外,为了节省冷却成本,数据中心采用高环境温度(HTA)运行,但这会缩小运行裕度,增加设备因温度峰值而故障的风险。
- PDU丢失 :在双馈系统中,需要协调断路器策略,通过调节机箱节流来应对。
- PSU丢失 :需要快速调节机箱节流,以减少PSU过度配置带来的影响。
6. 风险权衡与决策
缩小运行裕度并不等同于偷工减料,而是对成本与效益的谨慎权衡。在无法有效控制突发事件的情况下,传统方法是设计足够的运行裕度,但随着技术的进步,数据驱动的方法使人们能够量化、管理和重新平衡风险。大型CSPs通常更关注降低平台物料清单(BOM)成本,而运行关键任务应用的企业客户则更倾向于选择更高可靠性的路线。
综上所述,数据中心的电源管理是一个复杂的系统工程,需要综合考虑多种因素,采用合适的策略和技术,以确保业务的连续性和成本效益。
云数据中心电源管理策略与实践(续)
7. 电源管理策略的综合应用
在实际的数据中心运营中,需要综合运用前面提到的各种电源管理策略,以实现最佳的能源效率和业务连续性。例如,动态工作负载重新平衡可以与服务器电源控制相结合。当检测到某个区域的服务器出现热或电源问题时,一方面可以通过动态工作负载重新平衡将部分工作负载转移到其他服务器;另一方面,对受影响的服务器进行电源封顶控制,以降低其功耗,避免进一步的问题。
同时,云运营商电源管理和云级政策可以为整个数据中心的电源管理提供宏观指导。云运营商可以根据不同的业务需求和能源市场情况,制定全局的电源策略,而云级政策则可以从区域或国家层面推动能源的优化利用和碳足迹的减少。
8. 电源管理技术的发展趋势
随着技术的不断进步,数据中心电源管理技术也在不断发展。以下是一些可能的发展趋势:
-
智能化与自动化
:未来的电源管理系统将更加智能化和自动化。通过人工智能和机器学习算法,可以实时分析服务器的工作负载、电源使用情况和环境参数,自动调整电源管理策略,以实现最优的能源效率和性能。
-
分布式能源资源的集成
:随着分布式能源资源(如太阳能、风能等)的普及,数据中心将更多地集成这些资源。电源管理系统需要能够有效地管理分布式能源的供应和需求,实现能源的最大化利用。
-
与物联网的融合
:物联网技术可以为电源管理提供更多的数据和控制手段。通过在服务器和电源设备上部署物联网传感器,可以实时监测设备的状态和电源使用情况,实现更加精细的电源管理。
9. 案例分析:某大型数据中心的电源管理实践
为了更好地理解电源管理策略的实际应用,我们来看一个某大型数据中心的案例。该数据中心采用了多种电源管理策略,以提高能源效率和业务连续性。
-
电源管理策略的实施
-
动态工作负载重新平衡
:数据中心实时监测服务器的工作负载和电源使用情况,当发现某个服务器的负载过高或出现电源问题时,自动将部分工作负载转移到其他服务器。
-
服务器电源控制
:对所有服务器进行电源封顶控制,根据服务器的工作负载和性能需求,合理设置电源上限,以降低功耗。
-
云运营商电源管理
:云运营商制定了全局的电源策略,根据不同的业务需求和能源市场情况,调整数据中心的电源使用。
-
实施效果
-
能源效率提升
:通过综合运用各种电源管理策略,数据中心的能源效率得到了显著提升,能源成本降低了约15%。
-
业务连续性增强
:在面对电源和热事件时,数据中心能够快速响应,通过电源管理策略确保业务的连续性,减少了因服务器停机带来的损失。
10. 电源管理的未来挑战与应对措施
尽管电源管理技术取得了很大的进展,但仍然面临一些挑战。以下是一些未来可能面临的挑战以及相应的应对措施:
| 挑战 | 应对措施 |
| — | — |
| 能源成本的不确定性 | 建立能源成本预测模型,根据预测结果调整电源管理策略;与能源供应商签订长期合同,锁定能源价格。 |
| 新技术的快速发展 | 持续关注新技术的发展趋势,及时引入适合的数据中心的新技术;加强与科研机构和企业的合作,共同研发新的电源管理技术。 |
| 数据安全与隐私问题 | 加强数据中心的安全防护措施,确保电源管理系统的数据安全和隐私;采用加密技术对敏感数据进行保护。 |
11. 总结与建议
数据中心的电源管理对于业务的连续性和成本效益至关重要。通过采用合适的电源管理策略和技术,可以有效地降低能源成本,提高能源效率,增强业务的抗风险能力。
为了更好地实现数据中心的电源管理目标,建议如下:
-
制定全面的电源管理策略
:综合考虑各种电源管理策略,根据数据中心的实际情况制定适合的策略。
-
加强技术创新
:关注电源管理技术的发展趋势,积极引入新技术,提高电源管理的智能化和自动化水平。
-
建立完善的监测和评估体系
:实时监测服务器的工作负载、电源使用情况和环境参数,定期评估电源管理策略的实施效果,及时调整策略。
-
加强人员培训
:提高数据中心管理人员的电源管理知识和技能,确保电源管理策略的有效实施。
graph LR
A[电源管理策略] --> B[能源效率提升]
A --> C[业务连续性增强]
B --> D[成本降低]
C --> E[减少损失]
D --> F[提高竞争力]
E --> F
通过以上的分析和建议,希望能够为数据中心的电源管理提供一些有益的参考,帮助数据中心实现更加高效、可靠的运营。
超级会员免费看
1270

被折叠的 条评论
为什么被折叠?



