关于运控管理的思考
文:生如夏瓜
运控管理,从广义上来说,是指对所辖范围内的设备设施的运行状况、人的行为活动进行管理,包括设备设施的配备与优化、人的行为流程的设计与改进等等;从狭义来讲,就是异常处理,对既有的设备设施运行、人(工作人员、客户、其他)的行为活动的异常事件进行处理,使之恢复正常。在此,我们主要就狭义的运控管理进行研究。
上文已说,运控管理就是异常事件处理,以及异常事件处理衍生出的相关事务。具体有以下工作:
范围界定的基础就是所谓的服务标准,这里所说的服务标准是广义的服务标准,体现在三个方面:一是除了人的服务标准,还有物的服务标准,也就是设备设施的数量、配置、外观、性能、功能等指标,只要是能被客户所感知的内容,皆在此列;二是不仅仅是服务,准确来说应该是行为规范,囊括服务、安全方面的内容,并且安全方面的行为规范可能更受关注;三是除了对客户的服务标准,还包括对内部客户的服务标准(运维服务),比如说保洁、绿化等,表面上较易为客户所感知,但本质上其服务对象还是内部客户,拟人化后,可以把绿化比喻为化妆,看在别人眼里,美在自身。
所以说,服务标准、安全标准建立的重要性不言而喻,其是运控管理的基础,连自己管理的对象都弄不清楚的话,谈何管理。
此外,类似视觉(VI)、嗅觉、听觉、信息类的服务,很多时候容易被忽略,可以关注。
运控管理的主要工作就是异常管理,所以对异常的定义就非常重要,异常定义的清晰与否直接就决定了异常管理的工作量。此外,必须是在上述标准的基础上进行定义。
异常管理不仅仅是管理异常,还包括正常情况,也就是说,整个运行状态都要全盘掌握。具体的手段,包括采集、监控、巡检、客户申报等。采集为通过信息化手段,定时获取状态信息;监控是被动手段,当出现异常时,由系统自动提交异常信息;巡检为人工手段,广泛用于人和物的检查;客户申报则是有服务对象(人)出现异常时进行主动申报。
异常处理有几个要点,一是信息统一入口,也就是上面“信息获取”环节的所有信息要统一收集到一个节点,由此节点进行分派处理;二是对异常进行分级,一般是是根据对业务的影响进行,常见的有三级,分别为无影响(隐患)、局部影响、大范围影响。分别举例如下:双击热备主服务器故障后,备机自动切换,对业务无影响;单台自助值机故障后,对业务造成局部影响;行李报文服务器宕机,导致行李系统无法正常分拣,被迫采用人工手段进行,造成航班延误,此为大范围影响。具体情况可能要给出具体的数量界定。
当异常导致大范围影响时,一般需要启动应急预案,故应急预案的准备以及应急演练工作,也属于此类工作范畴,作为运控管理者,需要从全局考虑应急管理,合理地安排应急演练工作。
必须建立定期的沟通反馈机制,将运行状态、异常处理情况、新增异常情况等及时向相关人员进行反馈,相关人员包括异常事件主体、异常事件相关单位、安全服务管理部门、考核管理部门等。事件主体需要吸取经验教训;相关单位需要举一反三;安全服务管理部门需要及时更新标准规范以持续改进;考核管理部门需要据此进行奖惩。
上述的众多工作,必须依靠管理工具进行管理,也就是信息系统。尤其是航站楼管理这类体量的运控管理,没有信息系统支撑是无法想象的。源于IT系统服务管理的ITSM工具,可以较大范围地覆盖上述管理工作,值得借鉴。
联系客服