打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
数据中心监控系统发展趋势

从上个世纪90年代中期我国第一套机房场地监控系统在深圳诞生起,机房监控技术与产业发展走过了近20个年头。与国内很多IT细分市场都是海外产品抢先开发并占领的情形不同,我国在机房场地监控方面是先有民族产品。多年来,经过业界的共同努力,民族品牌在机房监控市场占有优势。


由于社会体制、管理理念、技术发展水平与路线的不同,在该领域,国内外企业走着很不同的发展路线。


国外的楼宇控制技术发展较早,许多早期机房场地设施的监控由楼宇控制(或工控)软件实现,与IT密切相关的数据中心场地设施往往纳入楼宇监控管理的范畴,受物业部门管理。但楼控系统的技术与管理理念并不能满足数据中心场地设施监控管理发展的需求,因此近年数据中心场地设施的监控管理开始脱离楼宇控制技术与理念的制约向DCIM发展。而IT系统的建设管理在IT部门,使IT监控管理由“网络监控”(俗称网管)向IT服务管理(ITSM-不含机房基础设施)发展。可见,国外数据中心监控管理行业技术沿着两条侧重点有所不同的路线发展(分别以基础设施与IT系统为对象的监控管理),并分别经历了“监测”阶段,开始进入“管理”阶段(DCIM与ITSM)。


我国最早的信息化应用出现在政府部门,信息中心的场地设施与IT系统从开始就整体隶属于IT部门管理。这种一体化的管理模式使我国的数据中心场地设施的监控管理没有过多地受国外楼控技术的影响而独立发展并确立了领先地位,也使得业界有条件一体化地研究数据中心监控管理解决方案。我国这种统一管理模式是按照ISO20000/ITIL的IT服务主旨进行IT监控管理系统“顶层设计”与实施的必要条件,是一种体制优势,业界应当坚守并倍加珍惜,而特别不应该再人为地分离基础设施与IT系统的管理部门与匹配的监控管理系统,形成数据中心监控管理的信息孤岛。

 

1、监控管理技术发展


IT管理的根本目标是用尽可能少的运营成本获得尽可能高的信息系统可用性。


(1)可用性要求与精细化管理


大规模、超大规模的数据中心越来越多,人们对信息系统的依赖程度越来越高。满足飞速发展的社会信息化的需求,保障信息系统的可用性,只有通过科学、精细的管理才能实现。


(2)精细化管理与IT管理信息化


规范化、流程化、精细化的管理大幅增加了管理的工作量与复杂性,对数据中心运维与管理人员的要求明显提高,人力成本显著增加如图所示(数据来源:IDC, On-Demand Enterprises and Utility Computing: A Current Market Assessment and Outlook)。提高管理效率,降低运行管理成本,数据中心管理信息化是必由之路。

                           

数据中心运营费用逐年大幅增长


(3)信息化与组织架构


信息系统由组织使用,是组织的外延(正如电脑是人脑的外延),因此数据中心监控管理系统必须与数据中心组织架构相匹配、相适应,成为一体。


数据中心的统一管理(组织架构)是监控管理系统“顶层设计”与高效使用的重要条件。


(4)一体化监控管理平台


数据中心场地设施作为IT设施的基础设施与信息系统可用性密切相关,是信息系统的不可分割的组成部分,必须纳入IT监控管理范畴。只有对场地设施、IT设施与IT系统统一监测,才能保证监测信息的完整性,才可能形成比较正确的管理决策。因此,数据中心基础设施与IT系统监测必将统一。


监测是发现问题,管理与控制是解决问题。只有用监测信息驱动管理或控制,监测的信息才能最大限度发挥作用,管理才能有的放矢;管理粒度取决于监测粒度,设定的管理目标的实现与监测点设计密切相关,监测与管理设计不能脱节。因此,数据中心监控与管理必将统一。


IT管理的根本目标是用尽可能少的运营成本获得尽可能高的信息系统可用性,所以信息系统才是IT监控管理的顶层对象,因此,IT监控管理系统的发展趋势是基础设施与IT系统监测一体化,监控与管理一体化,最终形成IT监控管理一体化平台。即以信息系统为顶层对象,以IT服务为目标的IT监控管理(一体化)平台,是IT监控管理系统发展方向。


2、监控管理系统与绿色数据中心


(1)数据中心节能的重要性


数据中心是能耗大户,这已经是不争的事实。随着能源价格上升,数据中心能耗成本所占比重不断增加。微软公司的首席供电与冷却架构师ChristianBelady说:到2014年时,数据中心中服务器和其支持性设备的耗能成本将占总体拥有成本(TCO)的75%,IT资本成本将仅占25%。降低数据中心能源消耗成为控制运营成本的重要方面。研究应用节能与能耗管理技术(绿色数据中心),降低能耗成本将是未来数据中心监控管理技术发展的重要方向。


(2)系统中的节能技术


与监控管理系统相关的节能技术有很多,从IT设备芯片到数据中心场地环境都可通过监控管理系统实现节能。


  • 服务器能耗控制。Intel 的芯片级的集成功率门限(IntegratedPower Gates)、自动低功耗状态(Automated Low Power States)、主频提升技术(TurboBoost Technology)等;服务器平台级的智能功耗节点管理器(Node Manager)和数据中心管理器(DataCenter Manager);数据中心级的散热感知调度(Power Thermal Aware Scheduling)等IT设备能耗控制技术使得人们可以通过监控管理系统在保证运行性能的前提下,来降低低负荷芯片工作频率,使闲置芯片内核处于最低功耗状态,发现并退出“幽灵”服务器以及根据功耗与发热量进行动态资源管理等,从而实现数据中心节能降耗。


  • 温度场技术。温度场是用来进行机房热点监控的一项技术,基本原理是对导入的机房空间模型文件进行网格化处理,并采集部署在机房空间中离散的温度测点值(测点主要部署在机柜上),然后以网格和实际测点为基础,采用先进的算法模拟计算网格点的温度值,最后通过图像引擎生成机房的温度云图。


在温度云图中,不但可以清晰的查看机房的冷热分布,而且可以方便的查看任意点的温度值和历史曲线,及时获得热点和冷点区域的报警信息。温度场使得机房管理人员对温度分布时刻了然如胸,并为其进行能耗管理决策提供依据;温度场信息也作为监控系统冷量控制的输入信息,可以通过人工或自动调节的方式实现机房冷量的合理配置。


有条件的也可结合CFD(Computational Fluid Dynamics)即计算流体动力学的方法进行气流组织仿真模拟。有利于提出气流组织的优化方案,使冷量配置更趋合理。

CFD模拟空调送回风气流组织分布效果图


CFD模拟数据中心整场气流组织分布

 

需要指出,由于节能的需要,人们越来越关注数据中心IT设备附近的微环境,而不是整个机房的温度,这有利于充分利用冷量,减少能耗。从这个意义上看,温度场与气流组织的关注点要放在IT设备附近而不是机房全局,这样也降低了对监控系统计算资源的消耗。


  • 空调群控技术。空调群控技术可以实现一个区域内空调的统一控制,避免运行冲突;根据热负荷量自动增减空调;根据IT设备的出风温度要求,自动调整空调设定温度;根据机房温度布局,自动转换运行空调等实现节能。空调群控也能实现空调自动定时切换,平衡空调机组工作时间,延长机组寿命;实现故障切换,提高可用性等。


系统基本原理是计算区域内平均温度,如果平均温度高于设定温度上限,则增开区域内总运行时间最短的一台空调;如果平均温度低于设定温度下限,则关闭区域内总运行时间最长的一台空调;如果平均温度处于设定温度上下限之间,则采用PID控制算法调节空调设定温度,从而影响区域温度,使其平均值逼近预期值。


  • 变风量地板。变风量地板可以快速的消除机柜和服务器周围的热点和冷点。变风量地板内置控制系统和温度传感器,并将被安装在机房冷通道中,直接对应机柜和服务器。通过温度传感器采集服务器入口温度,然后与温度预设值进行比较,如果入口温度大于预设温度,监控系统则控制变风量地板加大风量,反之则减小风量。


3、实用技术的应用


(1)移动巡检技术


据调查,94%的安装了监控系统的数据中心(其中96%的中大型数据中心)都仍然要求运维值守人员每天定时做机房巡检。越来越多的IDC数据中心甚至开始把每天的定时巡检作为一项为托管方提供的服务业务。在社会高度依赖信息化系统的今天,人们用制度化的定时机房巡检来弥补监控系统的不足,以及时发现并尽早处理异常情况,提高数据中心可用性。因此,机房每日定时巡检成为中大型数据中心日常运维活动中最基础的工作之一。


传统巡检一般均基于纸质表单,将设备巡检情况进行手工记录和处理。人工方式往往面临如下问题:手工填报纸质巡检单,巡检效率低下;有意无意漏检情况时有发生,巡检质量难以保证;异常情况无法取证留存,问题分析缺少依据;大量信息不能高效输入电脑,巡检结果难以统计分析;巡检人员的工作成绩难以评估等。传统人工巡检基本情形如图所示。


传统巡检方式


移动巡检方式

 

采用支持无线射频读卡(NFC、RFID)技术的平板电脑或智能手机进行机房巡检的移动巡检管理系统,如图所示,解决了人工巡检的问题,实现了电子排班、自动生成巡检工单,巡检点地图指引、读电子标签签到,巡检界面模板化、巡检标准统一,巡检异常情况、当场拍照留存,巡检全过程自动提醒巡检任务,巡检电子报表、简化统计分析等数据中心定时巡检全部工作的信息化。


出于信息安全考虑,数据中心一般不允许有无线网络环境,移动终端可以离线工作,无需网络环境;而对于需要统一管理的机构的联网机房,移动巡检系统可以实现定时巡检的所有联网机房定时巡检的统一管理。


对于暂时还没有监控系统的数据中心,移动巡检系统是个简易方便的预防性运维管理工具;对于已有监控系统的数据中心,移动巡检功能可嵌入运维管理模块,使监控管理系统更完整。


(2)3D展示技术


人类对外界信息的感知90%来自视觉,而感知决定了人对外界的反应。3D技术极大提升了人类感知了外界信息的能力,即提升了人类的交互效率。


数据中心监控系统中,3D技术对于空间位置关系的展示、复杂系统细节的分层表现、以及强化运维人员对关联信息的获取与记忆上具有2D不可企及的优越性。


在故障的监控报警与定位、IT资产查找、基础设施容量显示上,3D展示系统以其直观的信息展示效果有效提升整个监控值守与运维团队的工作效率。


绚烂的3D展示技术在数据中心监控管理展示方面的主要作用体现在:


  • 提升人员对数据中心整体结构、系统构成与运行信息的掌控力。3D展示技术通过对比、分层、组合等多种提升人类感知力的表现方式,化繁为简地实现了数据中心复杂系统的展示。使得运维人员在大局(园区、楼层布局)、细节(机柜、设备、运行信息)的掌控上都游刃有余。


 3D展示数据中心整体结构


  • 提高故障监控与故障处理效率。在数据中心出现设备故障时,3D展示技术用直观的空间定位、醒目的报警标志、详细的故障信息取代了传统单调的声光报警。使得运维人员能够效率地掌握故障全局信息并快速介入处理。


3D展示故障全局信息


  • 提升数据中心容量管理工作效率。在空间、功率、承重、位置的统计呈现上,3D展示技术将枯燥晦涩的数字转换成了具有高度与颜色特征的柱形立方体,充分发挥了人脑在颜色、尺寸与空间辨识上的高效特征,再搭配以智能搜索功能,使得容量管理工作更有效率。


3D展示提升工作效率


  • 提高管理团队交互效率、及对外宣传演示效果。3D展示系统以其视觉感知上的优势,可与适当的文字、解说搭配起来成为图文并茂的运维计划、任务、汇报、培训文档,极大提升团队的交互效率,进而提升工作效率。更可在3D展示系统中将数据中心的各个要点特点通过编辑工具串成可自动演示的3D动画,极大提升对外宣传与演示效果,尽显科技风范。


3D展示技术以其提升人类感知力的特点,配合具有成熟2D交互界面的监控运维管理系统,从全局到细节上实现了对数据中心空间、位置、层次、状态、聚焦、逻辑、交互的全方位覆盖,是提高数据中心管理水平、降低管理成本、呈现管理业绩的最佳解决方案。


温度场与气流组织CFD用3D实现具有更直观的效果。


(3)光纤光栅测温技术


电气设备热故障会导致绝缘下降并击穿,使设备损坏,甚至引起火灾。以往普通的监测方法无法实现在线准确测量运行温度。光纤式温度监测装置是当前先进的在线温度监测技术,在监测开关柜断路器触点温度等方面有着不错的应用前景。


  • 光纤温度测量技术特点采用光纤温度测量具备非常明显的技术优势,表现在:


  • 高绝缘性能。适合安装在高低压配电设备里。

  • 抗电磁干扰,抗腐蚀,防爆。能在恶劣环境下稳定工作。

  • 测量精度高。精确的透射和反射特征使其更加准确的反映了温度的变化。

  • 单路光纤上可以串联多路光纤传感器,其测量点数多,测量范围大。

  • 光纤传感器结构简单,尺寸小,适用于各种场合。

  • 可靠性高。由于光纤传感器对温度信息采用波长编码,使得整个测温系统不再受光源功率波动和光纤弯曲等因素影响。


  • 光纤温度测量原理。光纤温度测量原理主要利用了光纤的拉曼效应。


各类物理方面的条件,比如温度或压力以及拉力,可能会影响光纤中光传输的特性。作为散射光在石英玻璃纤维中衰减的结果,外部物理影响的位置可以被确定,由此光纤可以被用作为线性传感器。光纤是由混合石英玻璃制成的,石英玻璃是无定形固体结构二氧化硅(SiO2)的一种存在形式,热效应会引发固体内的晶格振荡。当光落在这些被热量激发的分子振荡时,光粒子和分子电子之间会发生相互作用。光散射,也被称为拉曼散射,会发生在光纤上。与其他光不同,散射光经历了一个量相当于晶格振荡的共振频率的光谱变化。因此,从光纤散射回来的光包含三种不同的光谱: 波长等同于原激光源的瑞利散射;具有较高波长的斯托克斯线,光子在其中生成;以及具有比瑞利散射更低波长的反斯托克斯线,光子在其中被摧毁。


所谓反斯托克斯带的强度是随温度变化的,而斯托克斯带的强度则与温度无关。光纤的局部温度可由斯托克斯光与反斯托克斯光的强度比推测得出。


  • 光纤温度测量系统的构成。分布式温度测量系统包含一个控制器(频率生成器,激光源,光学模块,高频混频器,接收器和微型处理器单元)以及作为线状温度传感器的石英玻璃纤维(光纤)。该设计为三通道,因为除了两条测量通道(反斯托克斯和斯托克斯)之外,还需要另一条参考通道。对应于光频域反射(OFDR)系统,在高频调制器的帮助下,激光的输出功率在测量时间内从千赫兹开始直到兆赫兹,整体频率成窦状。由此产生的频移是对反射区域分辨率的直接测量。通过光学模块,频率调制激光被连接到光纤传感器。不断发射出的拉曼散射光在光模块中不断被光谱过滤,并通过光探测器转化为电子信号。然后测量信号在低频范围内被放大和混合。傅里叶变换的平均低频信号生成两条拉曼散射曲线。这些散射曲线的幅值和被观测位置的拉曼散射强度成正比。感应管道光纤的温度则可通过两条测量通道的幅度比得出。


最新的分布式温度传感设备(DTS)都使用光频域反射(OFDR)方法。如果被检测到的回波信号在整个测量时间段内被测算为复杂的频率函数,且满足傅里叶变换时,光频域反射系统(OFDR)将提供局部光纤的信息。光频域反射已经发展成为一个可以测量长度仅为几毫米尺寸的光学波导表征的高分辨率测量方法。


  • 光纤温度测量系统的典型应用。在数据中心,光纤测温系统主要用于供配电系统。特别是对于高低压配电柜、变压器、发电机组的电力电缆连接点,利用光纤绝缘、易布设、测温准的特性,可以较容易发现接触不良引起的电缆接头处过热的问题。


应用于高压开关柜运行温度的监测示意图如图所示:


高压开关柜温度监测示意图


(本文节选自《中国数据中心运维管理指针》,如需购买或转载请留下您的联系电话及邮箱发送留言至本公众号,将有工作人员与您联系)

ChinaDCC
微信ID:chinadcc
本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
上海银行数据中心迎来智能机器“巡检员”
高效能的自动化机房环境巡检系统
网络机房温湿度标准及空调管理规范
智慧管廊:城市管廊监控与报警系统解决方案
教育信创如何解决智能运维问题?美信时代给予了完美答案!
机房可视化管理系统
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服