打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
空载数据中心背后隐藏的风险

下面是文章正文:

某一天,我们接到一个数据中心客户的紧急服务请求,邀请我司担任总协调人,组织排查发生在该数据中心一次严重事故的具体原因。

我们马上组成了专业团队,由公司技术负责人挂帅队前往该数据中心,展开分析排查工作。据了解,该数据中心于2019年落成,按照国标GB50174-2017中的A级标准设计并建设,主要基础设施设备均为一线品牌。该数据中心投入运行后,运维团队按常规进行巡检维护,设备均保持正常运行状态。但是当运维团队执行模拟外电中断的应急演练时,出现UPS“炸机”的严重故障,正在运行的UPS在发电机供电过程中发生故障,伴有电弧光和强烈的声响,UPS面板熄灭并停止供电。运维团队原以为是单机设备故障,在该UPS修复后又重复上述的应急演练,结果再次出现UPS“炸机”且有其他用电设备发生故障,从故障波及的范围评估,事态是相当严重的。

一、事故现场的检查

我们仔细检查了发生故障的UPS以及损坏的部件,发现UPS输入EMI板上的压敏电阻和保险管均损坏,SCR模块内部的部分主路和旁路SCR损坏,UPS内部部分铜排上有明显拉弧痕迹,功率模块内部的整流IGBT损坏。可见故障的程度是严重的、故障的影响面是较大的。(见图1)


障现场照片
故障现场照片
 

 

正常UPS的后视图
故障UPS的后视图(故障模块已拆除)
UPS功率模块有明显的烧灼痕迹
UPS内部烧毁的SCR模块
从固定用螺栓的烧灼可见故障的程度
EMI电路板上击穿的压敏电阻与保险管
图1:故障现场照片

二、事故过程的重构

经了解,我们看到的故障设备已经是第二次事故后的设备。若干天之前,曾经发生过同样的事故,当时以为是单纯UPS设备的问题,已经由UPS厂家对故障设备进行了更换(更换整台全新的同型号UPS)。两次事故都是发生在模拟市电中断的切换演练过程中,而且是作为后备电源的发电机组已经正常启动并对后端供电的时段。“炸机”发生在后端的变压器逐台投运时,由于没有“失压脱扣”功能,变压器连同所带的UPS同时投入运行,但是机房内IT负载极少,全部UPS基本都是空载运行。
 
尽管前后两次故障过程中,位于同一位置的UPS都发生了“炸机”,但是我们的技术团队分析实际原因并非故障表象那么简单,因此没有直接认定这是一桩设备质量事故。我们提出各个厂商应该进行全面检查、汇总全部设备损坏的情况,结果我们看到了同一供电链路上的其他设备也在UPS“炸机”的同时遭到损坏,包括:

  • 八台机房精密空调面板电源烧坏
  • 机房安全疏散指示灯烧坏
  • 两个DDC电源模块烧坏
  • 配电房内的高压直流屏模块烧坏
  • ……

种种迹象表明,供电线路上曾经出现异常电源质量的情况,以至相当部分的用电设备集中出现电源故障。

UPS厂商提供的一份对首次事故的分析意见也引起我们注意。由于“炸机”故障UPS损坏较严重,无法上电导出历史数据,UPS工程师导出了与故障UPS并机的其他UPS的历史数据。从已导出的历史告警记录(见表1)可以得知,UPS故障发生在当天9点43分。

表1:与故障UPS并机的其他UPS的历史告警记录

查看该时刻的UPS历史数据(见表2),可以得知UPS旁路电压的瞬时值偏高到300V以上(正常值为220V),即供电回路上的电压异常地偏高。

表2:与故障UPS并机的其他UPS的历史数据记录

联想到其他用电设备损坏的状况,我们推断并认为数据中心在发电机供电期间曾经出现异常的高电压,导致包括UPS在内的多种设备电源模块受损,有的还导致严重的“二次”故障。有鉴于此,我们建议UPS工程师对其他外观完好的UPS进行开机箱的全面检查。果然,该数据中心总共十台同规格的600KVA高频UPS,除“炸机”的两台外,其他都不同程度地存在EMI板压敏电阻击穿或者保险管断开的情况(见图2)。显然,这次的异常高电压 “横扫”了整个数据中心。

UPS的EMI线路板上保险管烧断
击穿元件没有发生飞溅,  UPS功率模块正常
EMI线路板对照(右侧为炸机板)
EMI线路板对照(右侧为炸机板)
图2:故障现场对比照片


故障排查到这里,大家都不禁把目光“投向”了发电机厂商。这位一直配合排查的工程师马上坐不住了,“我们的发电机也有运行告警记录,也有运行数据记录,记录均显示发电机正常运行过程中,输出端发现短路告警,发电机紧急停机。”发电机工程师所说也确实是事实,因为“炸机”UPS对应的变压器低压侧总输入断路器发生跳闸,显然是电流过大造成的,而且该型号的10KV发电机在现场均由第三方进行过满载测试(包括110%负荷的超载测试)、突加突减测试,测试结果均符合规范的要求。据发电机工程师说明,发电机的特性是在突加负载时输出电压反而会降低。如此说来,把异常高压的来源简单归责于发电机设备怕是个“冤案”。

三、事故原因的分析


我们技术团队之前曾经参加过多次数据中心复杂技术问题的排查工作。经验告诉我们,只有科学的工作方法,才能透过问题的表象最终找到问题的根源。我们的团队也在经历反复锻炼后建立起一套“紧张而不忙乱”、“严谨但结合实际”的工作流程。

3.1电气系统架构分析

通过查阅设计图纸并对照工程实体,我们对该数据中心的系统架构,尤其是电气系统架构进行了分析。该数据中心是依据国家规范GB50174-2017中的A级标准进行设计与建造的,从10KV市电进线到末端IT设备供电回路,全链路采用2N结构并且较好地实现了“物理隔离”。IT机柜设计功率密度为5KW/机柜,本期建成的机柜数近千个。下图(图三)仅画出A链路,B链路同理。
 

图三、电气系统架构图(A链路)


我们对上述系统范围内的设备配置一一进行核实,发现一处可疑的地方:本项目现场共安装了十二台变压器,容量为2000KVA、2500KVA不等,分别用于IT设备、动力设备的供电(见图四),在出现“炸机”事故的两次切换演练中,运维团队都对多台变压器进行了投切,其中一次“炸机”正是在第十台投入运行后发生的。而我们现场与设计单位代表再三确认:本期的设计和建设范围是三台发电机 前六台变压器,二期建设时要再增加四台发电机(与一期发电机组成并机系统),才能配备六台变压器(图四中标识为“预留”的变压器)。

 

图四、项目当前发电机与变压器的配置图

 
而业主的运维团队一直以为本项目的外电容量是一期、二期一次性申请到位的,供电部门已经同意安装十二台变压器并且批准向该十二台变压器送电。为了向用户证实数据中心的电力容量,二期预留的变压器也一直是通电的。自然,在进行模拟外电中断的切换演练中,二期预留的变压器也纳入在演练范围中。之前从来没有一个专业单位告诉业主是否要严格区分一期、二期的变压器?二期的变压器如何投运?甚至有一种声音是:反正现在还没有上IT设备,机房都是空载的,怎么切换都可以,正好利用这个时机尝试不同的切换模式组合。
 
显然,这里存在着信息不对称的问题,设计意图与使用意图不相匹配;还存在切换演练方案的目的不明确、作业流程没有预先文档化的问题。

3.2电气系统负载特性分析

但是,上面的电气系统架构还是没有解释异常的高电压从哪里来?谁是故障的始作俑者?我们继续从电气系统的负载特性上查找原因。
 
我们注意到一个之前没有被提及的技术细节,一个由多台并联的空载UPS组成的受电系统呈现怎么样的负载特性?有人说,高频UPS的技术规格书上写得很清楚,设备自带功率因素校正电路,输入功率因素0.9以上,接近纯阻性。但我们走进UPS设备间,连续检查了多台UPS的显示面板,发现“功率因素”一项在空载情况下均显示为-0.15~-0.30,而并联UPS组所在供电回路上安装有电容补偿柜,柜体面板上显示各相“无功功率”约为75Kvar,“功率因素”为-0.15(见图五),很明显整个回路上的负载特性呈容性。我们再次向UPS工程师求证,他也承认由于UPS输入端配置有滤波电容,整体负载呈容性,只有当UPS输出端加载一定负荷后,UPS输入端的功率因素校正电路才会工作。

UPS显示面板
低压配电屏的电容补偿柜面板
图五、设备的面板显示
 
很明显,这个IT设备上架极少的数据中心并非真正意义的“没有负载”,而是呈容性负载特性。这个数量级别的容性负载对市政电网当然不是什么“负担”,但是对由三台发电机组成(第一次演练时只有一台发电机)的一个后备电源而言,就是另当别论了。
 
据我们了解,出于运维人员数量有限的原因,该数据中心取消了UPS输入断路器的“失压脱扣”功能。相当于每次供电中断后的重新合闸,变压器都是带着全部运行中的UPS通电,每个变压器的投运都是对后备发电机的一次“冲击”考验,而且随着投运的变压器数量越多,系统的容性负载量越大,“冲击”的幅度也就越大。

3.3发电机输出特性分析

本项目数据中心的三台柴油发电机采用10KV的中压机组,单台主用功率1800KW,额定容量2250KVA,集装箱式室外安装。安装完成后均经历了第三方带载测试,测试内容包括满载压力测试、超载测试、突加突减测试等,测试结果符合相关规范的要求。
 
发电机PQ曲线运行图
发电机电压上升特性曲线
其他变压器投运时UPS输入端的电压波形
UPS“炸机”前的输入端电压波形
图六、发电机组相关性能曲线与技术资料
 

事故发生后,发电机厂商提供了该型号设备的相关性能曲线(见图六),并且再三强调机组不存在质量方面的问题。
 
仔细分析上述资料后我们发现,根据PQ 曲线运行图,单台该型号发电机可承担容性负载为额定负荷的 22%,即495KVAR。三台机组并机承担整个数据中心的容性负载,应该是可以稳定运行的。但是,该发电机在突加容性负载时又会由于容性负载的增磁作用出现输出电压上升的情况,只是发电机受磁路饱和的影响,输出电压在进入饱和阶段后其升高幅度受磁路磁通密度的限制,发电机输出电压不超过额定电压的 140%,在磁路饱和后,即使发电机被增磁或者继续加大励磁电流,发电机端电压上升有限。
 
利用示波器我们在UPS的输入端也监测到类似的情况,发电机供电后,每当一个变压器合闸投入运行,输入电源的电压波形都会经历一段“幅度偏高”后才回复正常,而且随着投运变压器数量的增加,电压波形“幅度偏高”的情况更为严重,在UPS“炸机”前监测到的电压峰值达到690V,而UPS EMI电路板上压敏电阻的耐压值只有620V。显然,正是这样形成的“异常高电压”由发电机输出到各用电设备,造成元器件的击穿,而UPS击穿器件的碎屑飞溅到机器内部,造成短路拉弧与烧灼的严重后果。

四、事故解决方案


通过对事故原因的分析,我们自然也找到了解决问题的办法。经过与业主单位、设备供应商的沟通,我们在该数据中心采取了以下措施,

  • 关闭全部预留的变压器
  • 恢复断路器开关的“失压脱扣”功能
  • 调整变压器的投运时序,避免变压器同时投入
  • 调整发电机组的运行逻辑,取消自动“减机”功能

在重新调整系统上述设置后,各方工程师再次对有关设备进行了全面的检查。在确定全部设备完好后,我们重新组织了一次全面的联调测试,模拟外电中断后由发电机进行供电,结果所有设备运行正常,在同样位置监测的输入电压数值与变化幅度也完全正常,符合UPS等设备的电源质量要求。“炸机”事故的原因从根源上得到消除。

五、事故排查的启示


一个空载的数据中心竟然在运行过程中发生UPS“炸机”事件,而且事件的程度完全不亚于系统“超负荷”所表现的故障情况,这样的场景令现场的所有人员(包括UPS厂家)都觉得匪夷所思。数据中心的业主显然是最“揪心”的,新建成的数据中心就落下这样的“毛病”,如果不能迅速排查定位,怎么应对即将大规模进驻的数据中心用户?如果不能从根源上解决问题,怎么在如此竞争剧烈的数据中心市场上立足?

5.1事故排查讲求科学的方法
除了理解业主的需求,我们还需要有科学的方法。以往的经验告诉我们,数据中心是一个多专业、多门类、多设备的综合体,解决数据中心的问题一定要有科学的工作方法和严谨的思维逻辑。在这次的事故分析排查过程中,我们坚持“从设计入手”、“以安全运维为依归”的基本原则,收集并查阅了该数据中心的大量设计图纸,并且通过工程承包商与设备供应商调取了数据中心的各项设置参数、设备规格说明、系统运行切换逻辑,对这些资料进行详细分析,在此基础上再结合“从局部到整体”的科学的测试方法,分区域隔离分析故障的成因。之前业主曾经自行组织各参建单位参与排查,历时两个月没有实质性的结果,我们的专业技术团队进场后缜密地开展故障分析排查,前后用了两周的时间最终定位了故障的根源。

5.2权威专业的第三方是有效排查的根本保障
该数据中心发生故障后,工程承包商、设备供应商的意见五花八门,但核心思想都是相同的——“我的东西没有问题,原因都在别人那里。”
其中,UPS的供应商在两轮故障后出具了《故障原因根本分析报告》,报告最后提出的整改意见涉及:

(1)增配SVG设备(静止无功发生器);
(2)对发电机的同一段母线的负载性质进行合理布置,感性负载(机房空调设备)和容性负载(UPS)均衡分配; 
(3)控制发电机负载投入顺序,优先投入感性负载(如机房空调设备),然后再投入UPS设备;
(4)在发电机负载投入之前,同时启动全部发电机。

从数据中心的运行特征分析,除第(4)条外的其他各条基本不具有可行性。
发电机的供应商则说明“突加容性负载导致输出电压增高是发电机的固有特性,增高的范围是有限的(140%)。”建议业主方:

(1)是否可以在低电压(或零电压)合闸?
(2)是否可以改变 UPS 配置,改变换相特性消除瞬间高压?

但凡熟悉数据中心运维流程的人,都会认为这样的建议不可操作。
 
数据中心的业主面对这样的结论及意见也是“无语”了,更何况有的供应商还要求业主签署“线路上不再出现高电压”的承诺函,否则不再承担保修责任。显然,只有一个专业的、负责任的第三方才能担当故障排查的“总指挥”,才能客观、公正、专业地组织相关各方参加排查过程的有关工作。
 
我们建议当数据中心出现严重事故(包括原因不明的故障)时,业主应及早聘用一家专业服务单位担任总体协调人,并及时告知相关供应商、维保商接受协调人的组织与安排,要求项目各方坦诚、公开地提出意见与建议,只有这样才有利于事故过程的还原与根因的定位,否则很有可能出现推诿、延误等一系列不利于数据中心业主的情况。

5.3数据中心的安全管控任重道远
这次数据中心发生的故障,损失可以说是巨大的。前后两轮的设备故障,UPS供应商都采取了“换新机”的方式,其他设备厂商也因为数据中心尚处保修期的缘故免费修复了设备。不幸中万幸的是,事故发生时该数据中心的客户还没有大规模进驻,上线的IT设备还非常有限,IT供电中断没有造成大范围的应用中断。总结这次事故,我们认为数据中心全生命周期的安全管控工作还有很大的提升空间。

首先应加强设计阶段的管控,运维团队的核心成员应参与设计阶段的技术工作,无论是设计需求的提出还是设计图纸的评审都应该充分听取运维团队的意见,并充分做好设计交底工作,使得设计意图与运维意图无缝对接。

其次在建设阶段应该抓紧运维团队的组建,运维团队的主要成员应了解数据中心的建设流程,全程参与数据中心的第三方测试,在冗余切换、综合联调等测试验证关键环节更应该让运维团队参加实战,通过真正地观察、操作、记录数据中心各系统的运行特征,掌握数据中心的功能与性能,并利用自己的语言编制成为日后的操作手册、切换步骤,而不是盲从厂商移交的材料,才能使运维资料真正可用。

在数据中心的运维管理过程中,我们要时刻保持“敬畏”之心。管过一百个机柜的数据机房,不等于你就能够驾驭一个大型的数据中心;一个低负荷的数据中心,不等于就是一个“高枕无忧”的数据中心。一个投入生产运营的数据中心,必须具备完整的管理制度与规范化的操作流程,一切都要求“文档化”,它不是试验室更不是可以“一键重来”的游乐场。这次故障排查找到了事故的最终原因,既不是某种设备的质量缺陷,也不是个别人员的主观恶意操作,而是系统内部存在的“不匹配性”被人为操作无意中“激发”成为故障。越是这样没有单一“背锅侠”的情况,数据中心的业主越是需要从管理体系的建设与安全制度的建立上下狠功夫。

总之,数据中心是承载重要信息系统安全运行的基础设施,一定要针对数据中心生命周期的不同阶段的不同特点,善用各方面的专业资源,加强安全管控,防范于未然。

来源:华源创兴
本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
【案例思考】北京某数据中心故障原因探讨
满满的干货,电气运行事故预想100问(下)
2020年调度系统人员资格认证复审考试(答案)
【权威研究发布】数据中心柴发机组带载测试解析
亦庄数据中心起火,服务提供商亟需恶补哪些常识?
电气基础名词解释
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服