打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
某商业银行托管数据中心宕机原因分析及应对

、事件概述

某银行机房因为动力负载过高,造成动力配电柜开关跳闸,供电中断,空调停止运行,生产机房温度升高导致设备宕机,业务全面中断。

事故发生时,机房动力配电柜负载过高,配电柜瞬间电流超过最高设定值,造成配电柜跳闸,生产机房断电,空调停止运行。值班工程师第一时间发现动力总空开脱扣断开,在多次尝试合闸失败之后,生产机房温度过高导致服务器和存储设备宕机,业务较长时间中断。

为此,银监会发布《中国银监会办公厅关于银行业金融机构数据中心基础设施外包风险提示的通知》。

通知要求,银行业金融机构要高度重视,开展自查,从加强外包风险管理,加强对基础设施主动管理,提高业务连续性管理水平等三方面采取防范和应对措施。


、事故原因分析及处理过程


原因分析

此次宕机的主要原因是信息系统设备的工作环境温度过高造成的,而导致环境温度过高的原因是精密空调断电不能正常工作造成的,导致精密空调断电的直接原因是空调前端的空开跳闸,导致空开跳闸的原因是空开后端所带负载的工作电流超过了空开的额定工作电流而进行的自动保护动作。


故障处理过程

1)  发现跳闸,紧急闭合,发现无法闭合;

2) 多次合闸失败,机房热量聚集,温度骤升;

3) 半小时机房温度达到设备运行高温极限,服务器和存储高温宕机;

4) 关键系统切换灾备,2h后空调正常开启;

5) 2个半小时后,温度逐步恢复;

6) 基础设施恢复;

7) 业务逐步恢复。

 

、事故发生的可能原因分析及防范处理



事故的可能原因分析

导致空开跳闸的原因:

1)负载异常工作;

a) 如某一台空调压缩机或者风机线路短路,造成瞬间电流过大;出现超载。

b) 市电电网波动较大,电压过低,造成瞬间电流过大,空开断开。

c) 工作人员不了解上端空开大小情况下,随意加负载;造成电流过大。 

2)空开本身问题;

a) 空开老化,触点氧化或接触不牢,内部发热引起断开。

b) 空开上、下接线不牢固或者松动,导致接线端子出现温度较高,空开跳闸。

3)空开设定载流量(整定值)不合适;

4) 应急操作措施不当;

a) 总空开跳闸后,在重新闭合前应该先断开总空开后端设备的电源,再断开总开后端额各个支路的空开(如果时间紧迫,也应该先断开总空开后端的支路空开),然后再闭合总空开,给设备逐个供电。

b) 要制定相应的应急预案,并且定期进行应急演练,在出现突发事件时能从容应对。

5)管理存在漏洞

a) 在增加负载时,忽略了总空开的配置。

b) 空调或启动电流较大的设备没有群控分序启动功能;

c) 没有定期检查空开的工作电流、温度是否在正产工作范围。

6)动力总空开存在单点隐患,没有外置旁路;当主路空开故障时不能及时切换到备用或者外置旁路上。

7)生产机房的空调和UPS共用一路电源,造成单路电源负载较高。


如何防范


    客户负载率管理失控,正常的负载电流应控制在设计负载的90%以下(无论是电力还是制冷,目前大部分制冷设计同时使用系数甚至仅为80%,则需要控制在72%以下);


    严格按照上、下架的加电、去电规章制度/流程进行,并应取得供电专业管理部门或者人员的许可,同时对机房内可用的机柜位,u位空间、制冷容量、电力容量(含末端到上级、一直到总源各路劲上的节点配置)应都有详尽可靠的记录


    对于负载率较高的机房,其空开跳闸的应急操作流程应该按照高负载率重编写,不能沿用低负载率或机房新建时的流程。(日常维护需要对各设备负载功率进行记录,按照功率、电流大小进行排序)


    对于负载率较高的机房,在两次合闸不成功后,既应该反馈应急策略失效,而启动新的应急策略,比如分类分级试送,启动高温应急方案


    单个空调的多个压缩机可能默认在一起启动的状态,在高负载率下,应该设置单一空调压缩机分别启动


    多个空调可能未设置分序启动,一般设置奇偶数启动,一次启动一半,当负载率较高,且上级配电设置较紧时,应因地制宜改为单台分序启动


    可能存在接地,短路等故障。合闸不成功,应迅速进行相应诊断,并隔离故障区域,减小损失范围;(建议增加旁路空开,如果主路空开故障或者短路,通过旁路空开供电,对主路空开进行隔离


    可能存在开关整定不合理,导致负载未超设计范围而跳闸。应提高专业运维管理能力


    可能存在开关整定不合理,导致负载未超设计范围而跳闸。应提高专业运维管理能力;


    生产机房UPS供电总开关必须和空调动力总空开分开,各自组成独立回路,以免相互影响


    可能存在低级操作失误。跳闸后空开未复位,立即多次合闸。应对值班人员进行充分的应急操作培训及演练


    机房未充分做好高温应急措施和物资准备,对于没有水蓄冷或者相变蓄冷的传统典型小型风冷精密空调的机房,应考虑好充分的通风引流散热措施,并应在30分钟内取到冰块对压缩机进行冷却,然后进行故障复位,防止压缩机热保护锁死空调



    安装智能化基础设施监控系统,在负载超载或空开工作异常时可提前得到信息,将故障在萌芽状态就被消灭。



本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
数据中心运维管理经验39条
【案例思考】北京某数据中心故障原因探讨
201507技术交流纪要
【案例思考】8某IDC服务商机房宕机原因及应对探讨
案例 | 北京某数据中心故障原因探讨
UPS及机房空调配电基础知识
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服