数据中心的电力供应,从市电经过变压器,给不间断电源(UPS)供电,UPS后备电池给机柜内的IT设备提供不间断的高品质电力供应。服务器的散热量,通过机房空调和空调水系统,最终通过室外的冷却塔将室内的电力消耗转化的热量排至室外。为了应付电力和供水中断,在园区设置一定数量的存水和存油设备,保证整个园区的电力和制冷不间断供应。2018年,国际正常运行时间协会(Uptime Institute ,UI)发布了《国际正常运行时间协会全球数据中心调查》报告,报告中给出了2016年1月至2018年6月这些数据中心宕机的原因。其中停电是数据中心宕机的最主要原因,占比高达36%。导致停电的主要原因是:市电故障、柴油发电机故障、操作失误、飓风、雷击、转换开关间歇性故障、不间断电源(UPS)故障、电涌,以及人为破坏等。
表1-1 数据中心宕机原因
尽管数据中心按照UI的等级标准来设计,但依旧存在服务器宕机的风险。数据中心每次宕机的平均成本损失约为7908美元/分钟。在所有引起服务器宕机的原因中,由于冷却系统失效造成的宕机占33%,并且有逐年增长的趋势。冷却系统失效的一个主要原因是故障性停电,当供电出现故障时时,可能会导致冷却系统出现暂时停机。与此同时,服务器及其它 IT 设备由于采用 UPS,在一段时间内仍保持运转,并继续产生热量。而冷却系统虽然有柴油发电机作为后备电源,但由于柴油发电机启动需要时间,因此在停电后冷却系统会失效一段时间。在冷却系统失效的时间内,数据中心的温度会急剧上升,在一段时间后会达到服务器运行的极限温度。