打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
【IT人独家】IT人俱乐部第53期沙龙研讨会实录丨众说IT运维管理(一)


  

  2016年3月31日,IT人俱乐部第53期沙龙研讨会在苏州园区举行。本次研讨会为IT人俱乐部会员提供30个参会名额,与上海迈辰信息科技有限公司业务发展总监罗建宏就“IT运维管理”进行了一次深度地、开放地探讨。以下为精选内容,欢迎各位看客在文末留言中拍砖、发表您的看法~


  主持人:我是这次沙龙的主持人,我叫赵晓瑜,来自新区的东泰精密,今天是我第一次主持这样的沙龙活动。很开心这么多小伙伴来,但是也比较紧张,大家鼓励一下。

  我们现在正式开始这次沙龙的主题“IT运维管理”。说到IT运维,相信在座各位都非常熟悉了,每天干的事儿,我罗列一下,比如说桌面维护、网络故障、机房、备份、存储、防病毒、各种升级、各种加班,各种抱怨,各种不受重视。风头都被那些推项目的,谈战略的给抢了,大家有体会吧。事情越来越多,越来越复杂,人手却越来越少,甚至沟通很困难,所以借用一句网络时髦的话“恕臣妾做不到啊!”。

  上次沙龙我们介绍了很多工具和先进的技术,相信大家都会回去琢磨、使用。今天这期主题我们想从“管理”两个字切入,我们觉得一个公司的规模,或者一个集团大到一定程度的时候,我们除了需要先进的工具之外,我们同样需要一套管理体系,就像一个企业有ISO管理体系一样,我们IT管理是不是也应该有一个体系,这个东西还不简单。我想在座各位都听说过比如说ITIL这些模式。今天有请我们的嘉宾给我们梳理一下或者给我们介绍这套完整的体系,它是什么样的体系,怎么玩的。

  接下来有请上海迈辰信息科技有限公司业务发展总监罗总为我们做精彩分享,有请。   


  罗总:大家好,非常高兴有这样一个机会在这里和大家分享一下,我们在IT运维方面的思路和事例。说到IT运维的我管理体系,这是一个很大的课题。今天我就从在做IT运维服务过程当中,怎么样逐步完善IT运维管理过程跟大家分享一下。

  首先介绍一下我自己,在座其实都是资深IT运维管理的专家和领导,我其实以前不是做IT运维管理的,在十年前,我是在思科做系统,当时接触到国外一些IT运维管理,包括在苏州工业园区以前很有名的新加坡电信他们做了很多好的东西。当时我们就想怎么样做一套系统,能够把IT运维管理服务,因为以前在中国大家提到IT运维管理,这是一个比较苦逼的活。当时我们想怎么样把它做成像国外IT运维管理一样,能够比较高大上的,IT工程师能够挣钱又多的这样一个事儿,而且把服务做成营运的思维模式,所以当时我们出来做这样一个公司,希望打造一套IT运维管理平台工具,能够使得我们IT运维服务生产力效率很高。不像在中国以前做IT服务都是卖人,按人头点来做这个事情。

  我们在2008年,2009年的时候,这个方向是失败了,因为市场变化等诸多情况,IT服务外包营运其实不太能够开展起来。但是在这个过程当中,我们当时评估了国内外很多的平台和工具,我们打造了自己的平台工具给大型企业客户来用,这个市场在中国还是很大的。这也是大家关心的,怎么样高效、安全、可量化的IT运维管理,能够把IT运维的事情,套用《让子弹飞》这部电影的片断,坐着火车唱着歌吃着火锅咱们就把事儿给办了,就是做成这样一种事情。

  今天我想从这个思路给大家分享一些东西,怎么样建立体系,从基本的需求开始。主要是有四点:第一个,怎么样高效的运维IT运维。大家在运维当中服务器、数据库、存储、业务应用系统和ERP、营销系统、网络和大量的桌面终端,我们怎么去处理故障,能不能以很轻松的方式,效率很高的方式来做这个事情。

  第二个,运维管理的信息安全,安全事故这在国有企业里面都很重视,这是一票否决制,所有IT主管,包括业务部门的领导都有这种责任,一旦出了安全事故大家责任很大,那我们怎么在IT运维管理方面把安全这个事情做好。说到安全,这是一个很大的话题,我今天主要谈的是从运维角度来做安全的管理。

  第三个,在座很多都是IT主管,我们怎么样量化,可视化的来管理IT运维工作,IT运行怎么样,IT运维工作人员他们的工作量,他们做得质量,他们的水平,我们怎么样量化的管理

  最后谈一下体系建设的一个简单的思路,供大家参考。

  在IT运维管理面临三大方面是遇到问题最多的。高效。就是怎么样快速的排除故障,这是第一个层次的需求。第二个层次的需求说我能不能降低故障率,在这种服务下怎么样出了问题很快速的响应。比如说我们以前遇到的客户ERP很慢,影响生产,查一两个月,从ERP软件到数据库中间件、服务器、存储、网络,查了很久,搞不清楚是哪里出了问题。那怎么样能快速的定位排除故障。第二个层级,我能不能降低故障率,使这个故障不要发生。第三个是怎么样把人员效率提高。一方面是提高学习技术水平。另一方面有能不能有一种手段,让大家在做事的时候知识增长很快,做事效率很高。

  安全方面我们面临的问题是,有安全问题,我们能不能有预警的机制。比如说业务连续性,我的ERP运行,在什么时候我就能感知到可能要出问题了,我们提前做这些事情。再有是有些安全风险的时候,能不能提前知道。第二个是安全事件怎么样处置,运维的风险,在安全上面带来的威胁有多大。

运维,其实对安全带来的威胁是很大的,待会儿我会谈到,运维的权限很高,它受控的方面很少,如果操作失误带来的后果是很大的。

  第四个方面,现在IT重要的系统,运维人员都可以进去,怎么样控制?你是什么系统,什么时候访问它,什么时候做变更,这些能不能有效的来控制它。第五方面是很多主管关心的,很多企业也特别关心的问题,就是合规性的问题,大家越来越清楚,包括很多IT建设,运维管理的规范性其实是让我们规避风险、提高效率、降低损失一个很重要的事情。

  可视化,IT运维主管我们在电脑上通过各种报表和可视化的展示,我们就能很清楚的知道,运维管理这整套IT系统。无论多大的公司我们清楚的知道,运行的效率森林,可用性怎么样,哪里有重大问题,哪里有隐患?运维人员他们每个人做的事情,我们都能一目了然。刚刚提到运维人员干很多活,很累,但是看起来好像没业绩,这些事情怎么样能解决,这就是可视。

  这是我们讲的ITIL也好,运维体系也好,要解决的这几个方面。说起来很复杂,但是要做那可能从方向上来讲其实也简单。谈到高效,信息化社会,如果要高效就必须要有足够的信息流支撑。

  所以IT运维管理怎么高效,首先是信息化,你能获取多少信息。你如果能够获取足够的信息,那你的故障排除速度就非常快。

  第二个是流程,这些问题谁来负责分工做这个事情。如果出了问题找不到人来负责,找不到有效的流程让大家协同起来把这个事儿解决,这个效率也是不稳定的。

  谈到安全,安全是管出来的,我们买了很多防火墙也好,防病毒软件也好,如果你不去管它,放在这儿,安全也是解决不了的。所以怎么样用流程管理,这里面谈到的东西就是可控,流程要怎么可控,各种流程节点你能够控制。另外,这个流程是闭环的,可能在座有这样的经验,我们IT运维平台能够开工单,分配,但是他做了没有,他是应付你做的,还是应付做的,他做得效果怎么样,你不知道,特别是一些重大问题,比如说做变更,做升级,没请示,没汇报,没有按照公司规定的步骤他就自己把它做了,第二天可能系统出问题了,那怎么来控制,怎么样进行闭环的控制。

  第三个是监督,就是安全这块怎么样监督运维管理上的各种行为,降低带来的安全风险。可视化就比较简单了,数据的可视化,就是靠数据,你有没有数据,有没有足够完善的数据,数据不完善。大家可能关心IT部门的工程师,他们做得事情工作量怎么样,生产力怎么样,他的效果,如果你的数据是不完善的,统计出来的考核也是不准确的。

  这个数据是不是可靠的?所谓可靠就是他会不会作假?这跟高效这块是对应的。要实现高效运维,你的信息必须是及时的,如果信息是一个星期以前的,那我就不能作为很好的参考。信息是完善的,我需要的各种数据是不是能够随手可得,这对我的帮助是很大的。再有是信息是可靠的,你给我的信息是这个设备IP地址,实际上上个星期你已经把它改了,那对我来讲,我就搞半天浪费我的时间。

  其实这块信息如果及时完善可靠,流程控制有可控的节点,你后面的数据必然就变成完善、可靠的数据,有了完善可靠的数据就是分析改进,你就可以做可视化工作了。

  首先我们谈一下第一个问题,高效的运维管理怎么来实现?我总结了一下,我们在运维方面遇到问题的时候,首先要知道发生了什么问题,什么时候发生的?这些问题是哪些设备发生的?它是什么类型的问题?比如说CPU从20%突然升高到70%,还是说某一个关键链部断掉了?你要清楚知道这个事情。

  从管理人员的角度来讲,我们现在在运维管理过程中很多IT主管每天很忙的事情在于出现这个问题,我应该找一个合适的人,谁来做这个事情,就是谁来负责处理?这个处理的时候要按照什么规范来处理?这就是我们谈到的SLA,你两小时之内必须给我搞定。

  第三个,一个人做这个事情能不能做得了,如果你做不了,找谁来帮忙,谁可以跟你协同?比如说ERP很慢的时候,你光看ERP的人是搞不定的,服务器的人要参加,管数据库的人要参加,网络的人要参加,甚至管终端的人要参加。

  用户这块是运维人员关心的,你要让我做这个事情,来解决这个故障,这个设备的信息我得知道,这个服务器或者路由器有哪些网卡,里面软件硬件配置是怎么样子的,各种参数,数据库是什么样子的,我要很清楚。设备运行情况,比如今天早上十点钟ERP有十分钟变慢,这十点钟前后比如说数据库空间并发访问请求的数量是什么,我得知道,不知道怎么去分析,那我只有去不停地等,不停地想重现。很多故障出现一次之后,要过很久才能重现,你也很难去模拟它,那怎么做这个事情。

  另外,在很大型的网络里头,我的服务器是连哪个交换机呢,这个交换机又连哪个路由器呢,又去哪个厂房呢,又到哪个工位,这些东西我得知道,要不然我不知道,比如说ERP出问题,它关联的服务器,它关联的数据库哪个,它关联的网络设备和存储是哪一块我不知道,我怎么去跟别人来说这个事情,没法说。

  还有历史上发生了什么事情,有些设备历史上发生了什么事情,做了什么变化,比如上个星期谁把它给换了,如果这些都不知道,我去搞了半天发现,原来是网卡已经换了。以前类似有这样的事情发生过,有没有这样的经验可以去寻找。

  问题发生,什么时候发生?发生什么东西?我们就需要及时的预警,及时预警牵扯到一个东西,就是你得监控,人家用户已经发现有问题了,这可能是IT主管的忌讳,等到业务部门老板已经打电话来了,说我们营销系统今天早上上不了班了,你才知道,那你在大老板面前就低了一头。所以我们很多时候,业务部门知道的时候我也知道,甚至业务部门感知到这个问题之前,我其实已经知道了,你来找我,很坦然告诉你哪里哪里出了问题,这就是要及时的预警。预警就牵扯到你要有监控,有监控有感知,服务台要及时的响应。有了预警之后,IT主管考虑的是,这个事儿该派给谁,该谁处理,该谁去协助,按照什么要求规格来做这个事情,这就是IT运维体系服务和运维流程。

  右边运维工程师关心的是,你给我尽量详尽可靠的信息资料,比如这个设备我都不知道它长什么样子,里面什么东西我都不知道,我首先看一眼,我登录进去找半天资料。我们IT工程师很多经验,第一件事情就是到处找信息搞半天,那我能不能很快的得到这些信息,使我能够快速的定位分析决策。这就是ITIL服务体系里面配置管理新数据库。

  这个在国内很多企业都不重视,我以前积累的类似解决方法,能不能给现在的工程师用,他能够快速的找到一些答案,这就是知识库的积累。这就是IT运维管理里面四大块。

  这四大块怎么做呢?接下来给大家看一下我们做的事例。我们在底层肯定是有监控工具的,监控所有的网络数据库、服务器、应用系统,我有很多KPI,监控工具无外乎是两类,一个是KPI的,一个是SMT的故障,一个是故障的东西,一个是现金指标。比如说流量多少,这就是KPI的东西。如果端口断掉了,这个机器相当于进程挂掉了,这就是有些故障的东西,这些故障的东西,很多企业我想都有一些监控工具,那我在监控工具上看到的,比如说我等会儿再处理,特别是KPI的东西,我等一会儿就处理,这个时候要解决的问题,这些问题发生报警的时候,应该由谁处理,能不能自动去分派,按照规定的流程套路,这就是流程规范的问题。

  这是我们客户做的事例,报警之后,它自动就会生成工单。比如这是网络报警,那么负责网络维护的这些人就会收到这样一个通知。监控工具就会对哪个事,什么地方出了问题,它就会可以直接送给你,通过短信、邮件,运维委员就可以快速知道,管理人也可以快速知道,这是借助流程来进行处理。

  刚才讲到的信息,要够足够完善、可靠、及时的信息,这就是CMDB要做得事情。说白了,运维管理工作有帮助的各种数据,运维人员在平台上一下就可以调取这些资料,很清清楚楚的。举个例子来讲,这个设备在什么地方,对于很多大型的企业,像我们有的客户一个厂区几千人,几十个楼,设备放在哪里不知道的话,那就要找半天。

  举例来讲,比如说受到攻击,我们发现有些PC流量大,这个时候其实我们很容易在路由器上里面就可以看到IP地址,如果有监控工具就会发现哪一个IP地址的流量突然增大,你的路由器能够查到它,但是不知道它是哪个机子,如果你这些信息足够详细。我们的客户有详细的资料,每次有这些异常流量的时候,在网络设备上找到产生流量最大的,在这里面一搜索那个地址,马上就知道哪个流量,哪个PC在什么位置,然后你把它关掉重启,这个事情就解决了。如果你没有,就要找好几天才能找到这台机器。

  我们有基本的信息,包括维保的信息。如果是机器维保,维保号和维保单子照片可以存在里头,那我可以很快速找到供货商来做这个事情。另外软硬件配置详细信息,这是大家都清楚的。还有关联的目的管理数据,就是这个设备相关的,它在发生什么样的维护上的事情,它在做什么变更?它的访问,谁访问过这些设备,谁在什么时候访问,用什么账号访问这个设备,他访问的记录做哪些事情。还有历史维修记录,更重要的是如果你的监控工具,这个时候就会有关联的关系图,很快就会知道故障的路径,你的ERP有问题,ERP下来的一系列数据库和服务器,哪个设备哪个接口一直到路由器下面,是哪条线路都清清楚楚,这一条路上所有人大家一起快速的协同,很快就可以搞定这个事。

  这是详细完善的数据,这个数据要怎么样可靠?CMDB的东西不是说我实施的时候把它录进去,然后就永远有效。大家都很清楚,IT系统的网络设备也好,应用软件也好,服务器也好经常调整,如果我不持续的有一个流程化的东西来管理它,维护这个数据,它就变得不可靠了,它就陈旧了。不可靠了,就越来越不用,越来越不去做,最后形成恶性循环,这个NDU数据就废掉了,没有人相信它,所以这个事情要做什么?一个是自动化,就是你要跟监控工具集成的,这个数据是要进到CMDB数据库的,它是自动更新的。当然很多企业里面讲到,我要跟ERP和财务系统对接,那有些财务盘点的信息,自然采购的供货商的信息我要同步过来。

  另外是日常运维工作当中有职责有权限的人要去维护这些数据,比如说资产端维护,那我们随时更新,责任人、使用人的电话都要随时更新的。从安全角度来讲,信息安全管理员对这些设备,比如说资产安全等级的评估,他的电话,他的账户,他的控制授权,他的日志,他的安全检查记录,所有东西及时更新,这样变成可靠的一个模式。

  这是一个事例,这是我们客户一直维护很全的数据库,大家可以看到很多,运维当中,管理当中所需要的,经常要用到的设备,都在这张表。你点到的时候,这台服务器一进去,所有这些东西都知道在什么地方,哪个分支机构,是什么设备型号,软件怎么样,比如说路由器,备份都在这个地方,当你升级的时候,坏掉的时候,你要把这个挡下去,一下就可以好起来。

  还有你访问,这个设备谁什么时候登录上去过,做了什么事情,全部在这个地方都有。比如这个电话,责任人电话,这个设备谁在管理,当它一旦出现问题的时候,短消息马上可以收得到,那我们人就可以很轻松的做这个事情,所以这里面很多信息可以帮助我们来做。

  这是监控信息和CMDB这些数据结合之后,我们就可以很容易用这个管理平台上生成拓扑关键图,这个拓扑关键图不是普通的监控工具上的拓扑图,这个拓扑图是和我们运维关联的,它是一个动态的,它不是静态的只是一个图。每一个图标后面跟CMDB信息是混淆的,是关联的。每条线路,每个接口就是监控工具获取接口统统都是动态获取的。

  在运维当中每台设备,每个线路出了什么问题,它都会有颜色闪动。比如说设计中心,每台服务器上面装了什么样的数据库、中间件,装的是哪个应用系统的哪个软件模块,这些分析都清清楚楚。

  这里顺便谈一下,现在大家都有云,云的技术就是虚拟化,在我们企业里面私有云可以讲是虚拟的资源池这种东西,计算、存储、网络,这是虚拟的。上百台虚拟服务器跟应用系统数据库的关系怎么样,其实也是在运维当中我们经常运维人员需要知道的信息。很多时候我们发现有的企业,有很多台模块机,有几百台虚拟服务器,很多服务器管理员根本就不知道,你要问他,那个ERP第8个模块装在哪个服务器,用的是哪个数据库,要查半天才清楚。另外,这些图标跟监控是联动的,一点它就能看到监控的数据,你的CPU、流量这些马上可以调出来。

  这样的话,完善大量数据的支撑,运维人员就可以实现高效的运维,快速的定位分析,快速的排除故障,出了问题可以看到拓扑图上下关联的连接是什么样子的,跟哪些设备是关联的,那我的资产详细信息,过去运维的技术是什么样子的,监控的报表是什么样子的。

  举个例子来讲,我们遇到很多企业像ERP营销系统慢,这是最头疼的,你说死掉了这个东西好说,ERP宕掉了,ERP软件的人搞定。但是它就是很慢,可能有很多可能,服务器、网络、数据库都有可能,ERP软件本身也有可能。如果你有详细这些信息,你有监控的图表,几个小时我就判断清楚了,你指责我服务器资源不够,我CPU才20%,你说我网络慢,网络流量100MB的接口才1MB的流量,你能说我慢吗?这样很快就能把这个事情查清楚了。

  高效运维需要信息化支撑,高效运维还需要流程来做这个事情。运维当中我们出现问题的时候,通常要做的事情,就是说我们要分工,IT主管经常要做得事情是出了问题要去安排任务,其实这个事情能不能按照规定好的流程来自动走呢?这就是IT运维流程要解决的问题,这是服务目录和运维流程要解决的事情。

  首先,我们要创建服务目录,ABC三个人,我要对100台服务器进行服务,这就是我的服务对象设备系统,哪些人这个对象进行服务的,这些人在里头的分工权限职责是什么样的,你能做什么事情。比如说你是一线的吗?当出现问题,你是第一个处理的吗?你处理不了,是不是后面还有第二线专家来做这个事情,甚至有第三线的。或者说你是做变更的吗?你是变更请求,你来做方案测试完了之后上面谁是审批人,谁来做变更实施,谁有权限进到这个系统去做实施,这就是权责的问题。上面就是流转的条件,我们的分工里头,什么样的东西你可以交给我们,什么样的东西你要交给别的地方去做这个事情。

另外就是协同,我们在企业里头,特别像ERP、营销系统、CRM这种东西,业务部门每个人都要用到的东西,我们在故障排除的时候,其实牵扯到IT通路商很多专业人员,这就是按照流程来做。

  这是我们的一个事例,这个就是流程怎么样来做这个事情,我乐观监控产生报警去到哪里。来自服务台方面的问题去到哪里,它的上线是什么?服务器的这个人,我遇到一些问题可能跟网络服务部要协同。然后我搞不定,可能转到上级或者转到服务商、供货商那边,他们的流程来做这个事情,这就是服务目录要做的事情。

  另外,这个流程里头要做更精细的控制,比如说都是网络设备,都是服务器,硬件如果要维保,那我是要给到一个统一的流程。如果是软件的问题那是另外一种流程。

  另外大家关系的就是SLA,要按照什么规则,什么要求来做这个事情,就是SLA来控制,什么级别的事情,你要两个小时之内给我搞定,你搞不定,那我可能就要升级,给下一个人去搞这个事情。或者你搞不定,我就要告警,IT主管可以知道这个事情,这可以作为威慑或者作为管理的条件来要求你,在规定的时间内完成这样的任务,这就是SLA保证的问题。这是流程来保证高效率。

  刚才讲了就是说出了问题怎么快速的解决它?大家都是企业,像我们公司去做服务,要赚钱,那我得让人力成本降低,怎么降低呢?你不能招很便宜的,他没这个能力。相反给他很高的工资,那怎么样让他能够提高生产力,能力倍增呢?比如说我们做到的,一个工程师用人的一套理念去做事情,一个工程师桌面终端我们可以做一千多台,结果在国内很多就是三百台,我们可以做一千多台。曾经谈合作的时候,美国一家公司,一个工程师可以做五千台,后来这家公司被戴尔收购了。当时我们跟他谈合作,说我通过这个平台在中国做服务,结果戴尔4亿美金把它买了。

  我们能提高IT人员的收入,同时能够让他干更多的活,怎么办呢?其实最根本的就是主动运维,这是我们中国的企业,很多大型企业其实现在都没做到这个部分。都是响应式的解决问题,我发现问题解决它,没想到像医生,以前有叫治未病的,就是说我防御,主动防御,不让它发生故障行不行?这个是完全可以做到,我们的网络、服务器和PC终端。待会儿我有一个例子,大家可能头疼PC很多的公司,觉得PC运维干这个活的人很Low,因为他一个工程师可能能够运维两百台,但是我们按照上海的价钱,一台PC外包好像50块钱/月都是算贵的。搞两百台,比如挣十万块钱,不能全拿给你,我只能拿一半给你,我还要交税,那你只能挣五万块钱。

  那我们怎么来做这个事情呢?我们要根据前面讲的信息的支撑能够分析、预知存在的一些问题,我能够提前优化它,加固它,而且批量的,自动化的来做这个事情,那我们可以很好的解决这个问题,就是把这些故障、隐患给消除掉。

  这里举个例子来讲,这是以前我们做过的,用一整套的工具和平台来做这块的事情,找大中小企业来做这个。这是全国连锁比如有上百家店的来做这个事情,其实都取得了很好的效果,这里给大家分享一下。

  很多公司总是系统重装,还要来修,这是很痛苦的事情。怎么来做呢?我们用工具可以感知到这里面的漏洞、防病毒这一系列东西,我们能够在安全上加固它,能够让的免疫能力,就像我们人体一样吃点保健的中药,能够防御更强。另外我们在企业里头很多业务应用系统在PC上运行的时候,它需要什么样的环境。有时候环境不好,它就会出现卡顿,那么我能不能预先设置好,比如说ERP部署之前我就知道,在终端上IE各方面,表格怎么弄,我能不能主动去做批量,比如一千台,一万台就可以做了。这样的话,我就可以主动的把这些消除。

  这就是计算机终端运维的模式,我们有很多终端,我能够自动感知到它各种潜在的问题,我们在这边用策略批量的修复它加固它,然后剩下一些东西有问题我再及时响应你,这个故障就可以大幅度降低,我们在实践中基本上可以降低70%,就是说我的IT运维工程师,它的生产力可以提高3倍,所以我们能做到一千多台,一个工程师可以做这么多事情。

  这里顺便讲一下,计算机终端主动运维这牵扯到信息安全的问题,这就是流程控制的问题。比如说打补丁,我可以对1万台,我下一条指令可能几分钟之内就把它打了,但是这个风险很大,我们在很多地方遇到补丁一打,第二天早晨8点钟过后营销系统玩儿部分转,下不了订单,订单没反应。因为你对大批量的计算机打补丁,它其实是一个安全变更的流程。如果没有管控,没有大量的测试,我这个营销系统,我的IE10、IE8、IE7行不行?打了这个补丁之后,他们能不能运行好,我的windows升级,XP2000,Windows8、Windows10行不行?你不经过这些兼容性测试,实施的这些测试就去做那会带来很严重的后果,这就需要变更流程的管控。你要做这个事情,这是我们给客户做的一个事例。

  我发现你有各种补丁漏洞或者风险,那就可以做这个事情,做这个事情那就需要申请,申请完了之后才可以对这个工具进行操作,才能执行它。我们在一个企业里头做服务,他们有1万台PC。当年在熊猫烧香病毒到处爆发的时候,整个这个企业没有一例病毒,因为我们做了很多主动的防御。熊猫烧香没感染,客户觉得很奇怪,外面脑的很热,我们为什么没事儿呢?这就是主动运维。

  从网络服务器,PC终端这块我们都可以做,比如说网络服务器,很多有监控工具,但是我们其实不重视。谈到补丁安全的时候,我们很多人会谈到事件问题变更,大家都很清楚事件问题变更。但是很多人觉得说问题拿来干什么呢?问题和事件流程差不多,这个东西为什么我要问题,其实问题是一个很重要的内容,做主动运维要把很多问题解决掉。

  比如说刚才监控工具监控的KPI,我的CPU从20%升到50%,业务系统可以不用考虑,但是你要不要去优化它?为什么?一定要问一个为什么,这就是主动运维。我们现在公司有一部分做服务的,我们工程师做几百台路由器服务,我们几个人就可以搞定这个事情。CPU从20%升高到50%,那我肯定要做调查,对交换机我要做调查。很多时候CPU突然升高,预示着有入侵或者有病毒。如果升高50%的时候告警了,你说中午吃个饭,喝个茶再来弄一弄,如果没有流程的管控,到了下午CPU100%死了。

  如果我们有这样一个机制说,KPI发生变化的时候,CPU内存或者流量发生异常变化的时候,那我是不是要去做这个事情,把它优化一下,这就是主动运维。当我们把这个事情解决的时候,我的故障率自然就会降低,所以根本上来讲,高效运维就是三个层次。第一个层次是我有故障,怎么快速响应,能够高效把它解决。第二个层次降低故障率。第三个层次就是提高效率。

  提高什么效率呢?在业务水平怎么提升的问题,举个例子来讲,包括可视客户提高,人员流动影响小。我们现在给几百台路由器做网络服务,工程师如果离开一个,我们的交接只需要半天时间,新的工程师跟他交接就半天时间,为什么?因为所有的数据,哪一个接口连什么东西,系统里清清楚楚,所有资料都作为附件上传了,这个就影响小。

  刚才谈到CMDB里面,所有维修的记录就是原来的工单,他有所有变更审批的各种实施的文档方案,它还有知识库,知识库里面会学到很多东西,包括协同可以跟其他人一起来做这方面的事情,很高效的做完,很快他就会成长起来。

  刚才讲到这个事情做好,大家可以轻松的高效的做事,业绩又是可见的。比如一些大型企业客户,他们做这个东西,IT人员到年终的时候,把这些统计报表拿去给领导看,企业老总说,你们好像还挺能干的,一年做了4万个工单,做了哪些事情,主动认为多少次,大型升级变更,业务系统的变更做了多少次,还是挺辛苦的。



本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
崔博士做客比特网ChinaByte,“谈让中小企业信息化化繁为简”。
如何理解CMDB的套路
浅淡网络运维的紧急故障处理及对策
一句好用的“管理顺口溜”实践
高效运维最佳实践(01):七字诀,不再憋屈的运维
视频监控系统常见3个问题分析解决方式
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服