2022年12月18日9时,某云香港节点机房制冷设备故障,服务器出现大面积宕机,如图1。
一、事后经分析,主要原因是机房冷却系统缺水进气,导致制冷系统无法工作。冷却水系统为什么会缺水?猜测可能原因如下:
1) 原因一:停水原因,市政停水导致冷却水系统缺水,空气进入,如图2。
图2 停水
分析:网上搜索,该地区该时间段内,并无市政停水4和相关停水信息,基本可以排除该故障原因。
2) 原因二:补水异常,冷却水系统的补水设施发生故障,如补水泵等硬件故障导致系统补不上水,空气进入系统,如图3。
图2 补水设备异常
分析:网传故障发生前一天有做冷却塔维护,故障原因和冷却塔操作有一定关系,故该故障原因可能性不大。
3) 原因三:补水阀门未开启,如图4,网传前一天有在进行冷却塔维护。
图3 补水阀门未开启
分析:网上流传部分冷塔维护后,相应的补水阀门没有打开。由于系统采用冷塔并联设计,每个冷塔都有补水管道和阀门,个别冷塔无法补水不会影响到整个系统的进水水量,该原因可能性较小。
4) 原因四:排污阀未关。冷塔维护完成后,重新并入系统后,但该塔的排污阀未及时关闭,如图4。
图4 排污阀未关闭
分析:现场采用多塔并联设计 ,根据多塔并联的特性,维护冷却塔时,需要将维护的冷塔从系统中脱离出来,也就是关闭该塔的上水阀、下水阀、平衡管阀门、进水阀后,再打开排污阀进行维护。维护完成后,需要打开相关阀门,并关闭排污阀,如果排污阀没有关闭,会导致整个系统同过排污阀排走,导致系统进空气,结合现场信息,该故障可能性较大。
二、 反思:整个过程中,冷却系统原因定位耗时3小时34分钟,补水排气耗时2小时57分钟,解锁群控逻辑启动4台冷机耗时3小时32分钟,如图6。
图6 故障历时时间
经初略分析,认为现场主要存在如下问题:
1)动环监控和BA系统未给出任何告警。反映该数据中心智能化程度低,冷却水压力、冷塔水位、冷机流量等未纳入监控,如图7。
图7 重要告警未能纳入监控系统
2)冷却水系统管路设计存在单点故障,多塔并联连通,一套冷却水系统故障或异常操作均可能造成全部冷机缺水,形成系统性故障。
3)维护人员需要技能提升。该案例中,故障定位、补水排气、解锁群控等耗时太长。
联系客服