摘要:1简要介绍数据中心制冷中断的常见情况和故障原因,举例说明在实际工 作中遇到的制冷系统的故障情况和紧急处置方式。2建立数据中心 IT 机房“冷 通道封闭模型”和“热通道封闭模型”,使用 CFD 软件进行模拟仿真,对比两种 模型在制冷短暂中断 30S 时,机房的温度分布和 IT 设备的温升情况。
一、 数据中心机房的制冷中断
冷冻水循环出现故障,例如:1供水压力减小,造成末端冷冻水流量不足, 2管网失压,造成冷冻水循环中断等。
1.1 冷冻水主管道爆管,造成管网失压;
1.2 冷冻水管道进气严重,造成管网失压;1.3 二次冷冻水泵故障(多台),造成二次管网压力不足。
关键设备故障或供电中断,造成短暂制冷中断
2.1 精密空调供电中断(或 ATS 动作),IT 机房出现短暂制冷中断;
2.2 冷冻二次泵供电中断(或 ATS 动作),管网压力不足或失压,造成 IT 机房出现短暂制冷中断;
2.3 BA 系统的软硬件故障或供电中断(无断电自保持功能),造成阀门误动作,水泵或冷水机组停机。
在数据中心实际运行中,制冷系统出现的故障以阀门误动作(人为或自动)、制冷系统相关设备故障或供电中断、管网进气等较为常见。其中以管网进气 危害最大,处置不当极易造成数据中心长时间供冷中断,出现机房高温造成IT 设备宕机和损坏。
以下是实际工作中遇到的事件,仅供大家参考:
4.1 事件一:P201-UPS 配电室内 4 台 UPS 告警“环境温度高告警”(UPS 告警信息接入监控系统)。
1) 事件原因:支路供水管电动阀误动作关闭,造成P201-UPS配电室的精密空调供冷中断,现场查看精密空调出现告警“送风高温”(该告 警未接入监控系统)。
2) 现场处置概况:
1 用纸板挡住 UPS 配电室的回风百叶,手动调节精密空调送风速度至 100%,打开精密空调间和配电室的大门,使用 4 台工业风扇对 UPS 进行强迫降温。
2 查找到故障原因后,打开电动阀恢复冷冻水供给,使用精密空调为配电室降温。
4.2 事件二:蓄冷罐(开式)高水位告警,现场查看发现蓄冷罐大量溢水,由于发现及时处置得当,水泵未发生异响振动和流量衰减,末端供冷未受影响。
1) 水泵设备参数:
一次冷冻水泵:流量 510m3/h,扬程 25m,55KW,定频。
二次冷冻水泵:流量 510m3/h,扬程 28m,55KW,变频。
2) 事件原因:蓄冷罐处于充冷状态,由于蓄冷罐回水管电动阀误动作关闭,冷冻水只进不出,造成蓄冷罐大量溢水。
3) 现场处置概况:
1 1 名值班工程师巡视蓄冷罐和检查机房内部管道是否有异响,1名值班工程师到冷冻站检查设备运行情况和留守观察,ECC 值班 工程师核对 BA 系统上的设备状态。
2 在定压补水的基础上,手动开启市政补水阀门进行快速补水。
3 通知其他同事到达现场支援,排查故障原因和检查排气阀。
4 故障点找到后,打开蓄冷罐回水管电动阀,恢复蓄冷循环。
5 事件处置完成,正常运行 1 小时后,支援人员撤出。
4.3 事件三:巡检发现冷却水泵电动机异响,轴承安装位外壳温升过大,造 成对应的制冷单元退出运行,制冷单元冗余缺失。
1) 事件原因:电动机、联轴器和水泵对心不良,造成轴承过载和发热严重,造成电动机异响和端盖温度异常。
2) 现场处置概况: