打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
图解某云节点故障原因

       2022年12月18日9时,某云香港节点机房制冷设备故障,服务器出现大面积宕机,如图1。

图1 故障节点  

一、事后经分析,主要原因是机房冷却系统缺水进气,导致制冷系统无法工作。冷却水系统为什么会缺水?猜测可能原因如下:

1) 原因一:停水原因,市政停水导致冷却水系统缺水,空气进入,如图2。

图2  停水  

分析:网上搜索,该地区该时间段内,并无市政停水4和相关停水信息,基本可以排除该故障原因。

2) 原因二:补水异常,冷却水系统的补水设施发生故障,如补水泵等硬件故障导致系统补不上水,空气进入系统,如图3。

  图2 补水设备异常

分析:网传故障发生前一天有做冷却塔维护,故障原因和冷却塔操作有一定关系,故该故障原因可能性不大。

3) 原因三:补水阀门未开启,如图4,网传前一天有在进行冷却塔维护。

  图3 补水阀门未开启

分析:网上流传部分冷塔维护后,相应的补水阀门没有打开。由于系统采用冷塔并联设计,每个冷塔都有补水管道和阀门,个别冷塔无法补水不会影响到整个系统的进水水量,该原因可能性较小。

4) 原因四:排污阀未关。冷塔维护完成后,重新并入系统后,但该塔的排污阀未及时关闭,如图4。

  图4 排污阀未关闭

分析:现场采用多塔并联设计 ,根据多塔并联的特性,维护冷却塔时,需要将维护的冷塔从系统中脱离出来,也就是关闭该塔的上水阀、下水阀、平衡管阀门、进水阀后,再打开排污阀进行维护。维护完成后,需要打开相关阀门,并关闭排污阀,如果排污阀没有关闭,会导致整个系统同过排污阀排走,导致系统进空气,结合现场信息,该故障可能性较大。

二、 反思:整个过程中,冷却系统原因定位耗时3小时34分钟,补水排气耗时2小时57分钟,解锁群控逻辑启动4台冷机耗时3小时32分钟,如图6。

  图6 故障历时时间

经初略分析,认为现场主要存在如下问题:

1)动环监控和BA系统未给出任何告警。反映该数据中心智能化程度低,冷却水压力、冷塔水位、冷机流量等未纳入监控,如图7。

  图7 重要告警未能纳入监控系统

2)冷却水系统管路设计存在单点故障,多塔并联连通,一套冷却水系统故障或异常操作均可能造成全部冷机缺水,形成系统性故障。

3)维护人员需要技能提升。该案例中,故障定位、补水排气、解锁群控等耗时太长。

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
中央空调制冷系统通过楼控系统实现优化与节能千家楼宇自控网
干洗机的维护与常见故障的排除
制冷机组吸气压力过低怎么办?
工业冷水机常见故障及解决方法
冷干机的安装调试与故障维护
如何避免数据中心冷却水缺水?
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服