某银行机房因为动力负载过高,造成动力配电柜开关跳闸,供电中断,空调停止运行,生产机房温度升高导致设备宕机,业务全面中断。
事故发生时,机房动力配电柜负载过高,配电柜瞬间电流超过最高设定值,造成配电柜跳闸,生产机房断电,空调停止运行。值班工程师第一时间发现动力总空开脱扣断开,在多次尝试合闸失败之后,生产机房温度过高导致服务器和存储设备宕机,业务较长时间中断。
为此,银监会发布《中国银监会办公厅关于银行业金融机构数据中心基础设施外包风险提示的通知》。
通知要求,银行业金融机构要高度重视,开展自查,从加强外包风险管理,加强对基础设施主动管理,提高业务连续性管理水平等三方面采取防范和应对措施。
此次宕机的主要原因是信息系统设备的工作环境温度过高造成的,而导致环境温度过高的原因是精密空调断电不能正常工作造成的,导致精密空调断电的直接原因是空调前端的空开跳闸,导致空开跳闸的原因是空开后端所带负载的工作电流超过了空开的额定工作电流而进行的自动保护动作。
1) 发现跳闸,紧急闭合,发现无法闭合;
2) 多次合闸失败,机房热量聚集,温度骤升;
3) 半小时机房温度达到设备运行高温极限,服务器和存储高温宕机;
4) 关键系统切换灾备,2h后空调正常开启;
5) 2个半小时后,温度逐步恢复;
6) 基础设施恢复;
7) 业务逐步恢复。
导致空开跳闸的原因:
1)负载异常工作;
a) 如某一台空调压缩机或者风机线路短路,造成瞬间电流过大;出现超载。
b) 市电电网波动较大,电压过低,造成瞬间电流过大,空开断开。
c) 工作人员不了解上端空开大小情况下,随意加负载;造成电流过大。
2)空开本身问题;
a) 空开老化,触点氧化或接触不牢,内部发热引起断开。
b) 空开上、下接线不牢固或者松动,导致接线端子出现温度较高,空开跳闸。
3)空开设定载流量(整定值)不合适;
4) 应急操作措施不当;
a) 总空开跳闸后,在重新闭合前应该先断开总空开后端设备的电源,再断开总开后端额各个支路的空开(如果时间紧迫,也应该先断开总空开后端的支路空开),然后再闭合总空开,给设备逐个供电。
b) 要制定相应的应急预案,并且定期进行应急演练,在出现突发事件时能从容应对。
5)管理存在漏洞
a) 在增加负载时,忽略了总空开的配置。
b) 空调或启动电流较大的设备没有群控分序启动功能;
c) 没有定期检查空开的工作电流、温度是否在正产工作范围。
6)动力总空开存在单点隐患,没有外置旁路;当主路空开故障时不能及时切换到备用或者外置旁路上。
7)生产机房的空调和UPS共用一路电源,造成单路电源负载较高。
联系客服