打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
数据中心建设与管理指南——数据中心运维管理框架

6.2 数据中心运维管理框架

6.2.1. 运维管理框架4Ps概述

所谓数据中心运维管理框架是指管理一个数据中心所使用的方法与手段的总称。那么,应该用什么样的方法与手段来管理数据中心呢?在此,信息技术基础架构库(Information Technology Infrastructure Library,ITIL)给出了一个比较好的管理框架,即所谓的4Ps。数据中心运维管理框架如图6-3所示。

图6-3 数据中心运维管理框架

1. 人员

人员是数据中心运维管理的基础,也是数据中心运维管理的核心。一个好的数据中心运维管理框架,少不了合适的技术和管理人员。从前面数据中心运维管理概述中,可以看到数据中心所需要管理的对象,包括基础设施、IT设备、系统与数据、管理工具和人员等。只有具备相应知识背景与管理经验的人,才能有效地整合上述资源,为客户提供符合质量与合同要求的IT服务。因此,在考虑建设数据中心运维管理框架时,必须要考虑到:如何建立起一套科学合理的包括选、用、培养、考核及解聘的人员管理生命周期;如何通过合理的组织架构设计与人员分工,最大限度地发挥个人的主观能动性,为组织目标贡献力量等。

2. 流程

流程是数据中心运维管理质量的保证。作为客户IT服务的物理载体,数据中心存在的目的就是保证服务可以按质、按量地提供。服务与产品有着许多的不同,其中最核心的不同在于服务本身是看不见、摸不着的,但又是能通过服务商与客户的互动为客户所感受到的。为确保最终提供给客户的服务是符合服务合同的要求,数据中心需要把现在的管理工作抽象成不同的管理流程,并把流程之间的关系、流程的角色、流程的触发点、流程的输入与输出等进行详细定义。通过这种流程的建立,一方面可以使数据中心的人员能够对工作有一个统一的认识,更重要的是通过这些服务工作的流程化使得整个服务提供过程可被监控、管理,形成真正意义上的“IT服务车间”。

3. 产品

产品是数据中心运维管理的加速器。数据中心运维管理涉及的对象庞杂,且重复性工作较多。若完全依靠人工去完成这些工作,一方面对人员的技能与数量有较高的要求,另一方面在工作质量的保证方面也存在风险。为此,越来越多的数据中心在开展运维管理工作时使用大量工具,目的是通过这些工具的部署取代一些监控、操作、配置文件、工作流管理等大量重复性工作,最终实现提升运维水平、降低运维风险、减少运维成本的目的。

4. 服务商

服务商是数据中心运维管理的支持者。作为专业化的数据中心运维管理,有效地整合数据中心管理对象,并最终为用户提供专业化的服务才是数据中心服务提供者的核心价值所在。而且,数据中心运维管理中涉及了太多不同种类的设备,数据中心也不可能把所有的技术与管理工作独自承担。聘用一批既懂变压器、发电机、UPS,又了解空调、消防、防火设备,同时还精通IT相关软硬件的人员,对于任何一个企业或机构均是极大的成本支出。所以,数据中心需要与许多设备供应和服务提供商建立良好的战略合作关系。

6.2.2. 运维管理的人员要求

如前所述,人员既是数据中心运维管理的基础,也是数据中心运维管理的核心。一个数据中心组建团队时应注意什么呢?以下重点就人员技能、人员分工与人员管理三个方面谈一下数据中心运维管理方面的人员要求。

1. 人员技能

现在回到数据中心的运维对象来分析数据中心需要配备怎样的人员。数据中心人员技能构成如图6-4所示。

图6-4 数据中心人员技能构成

基础设施操作和技术人员。这类人员的主要职责是保障与数据中心服务相关的基础设施的稳定运行。他们应掌握数据中心各类基础设施的原理、使用方式、维护方式,并具备简单故障诊断的能力。而且还能协助开展数据中心场地、设备性能的能力管理与可用性管理。由于数据中心业务的特殊性,这类人员需能支持7×24小时服务。

IT设备与IT系统的操作或技术人员。这两类人员的主要职责是保障客户IT服务相关的设备与系统的稳定运行,同时根据客户的要求完成IT系统的检查、后台操作、批作业处理、备份、恢复等相关工作。如果数据中心规模较大,将会按技能的不同将IT人员分成硬件类与系统类的两组人员。如果数据中心规模较小,通常会将这两组人员合并,统一负责数据中心所有IT设备与系统的操作与维护。

系统工具管理人员。这类人员与IT设备、系统管理人员最大的不同就是服务对象的区别。前面的IT设备、系统管理人员是围绕客户相关IT设备与系统提供服务,而系统工具管理人员则类似于内部的IT部,是为包括IT运维管理人员、IT系统技术操作人员、IT设备技术操作人员、基础设施技术操作人员在内的所有人员提供服务。而服务的手段主要是通过对现有技术管理工作进行分析,找出数据中心管理的诉求,并通过向外采购或自行开发的方式以技术的手段去满足上述管理诉求。他们对于数据中心外部的供应商来说,承担了管理者与项目经理的角色,对于数据中心内部的技术管理人员来说,则承担着需求分析、技术支持的角色。

IT运维管理人员。这类人员主要的职责是通过建立有效的管理模式,组织上述所有人员,管理好所有的管理对象,按质按量地向客户提供数据中心业务服务。这些人员应具备数据中心管理基本知识,了解与之相关的国内外管理标准,具备相应的流程建设与实施能力、良好的客户沟通能力和较好的财务知识。

2. 人员分工

数据中心在人员的分工上通常有两种做法:一种是职能支撑型的组织分工,另一种是流程驱动型的组织分工。

1) 职能支撑型分工模式

职能支撑型分工模式主要是把具备同样技能与类似工作目标的人员整合在一个部门当中,他们承担起数据中心的部分职责,部门内的成员向部门领导汇报,部门领导向中心领导汇报,类似于管理学中的“直线-职能型”的组织分工。数据中心组织分工如图6-5所示。

图6-5 职能支撑型的分工模式

该种分工的优点为:既保证了企业管理体系的集中统一,又可在各级负责人的领导下,充分发挥各专业管理机构的作用。其缺点是:职能部门之间的协作和配合性较差,职能部门的许多工作要直接向上层领导报告请示才能处理,不仅加重了上层领导的工作负担,也造成办事效率低,组织内耗大等问题。这种组织适用于企业规模较小、业务系统相对稳定、项目工作不多、并为企业内部提供IT服务的数据中心。在这种情况下,数据中心的运维管理相对比较稳定,按此种方式组织的工作团队,可以较高效地开展工作。同样由于外部环境比较稳定的原因,许多工作的分工可以提前制定并加以明确,无需部门之间太多的沟通协调,从而避免了这种组织架构的最大缺陷之一——“跨部门合作”。

2) 流程驱动型分工模式

流程驱动型分工模式特征为既有按职能划分的垂直领导系统,又有按客户(项目)划分的横向领导关系的结构。其中,垂直领导侧重于人员与能力培养的管理,横向领导侧重于与客户服务、项目工作相关的管理。这种分工模式从组织的角度去看,可以看到企业内存在不同的职能部门与人员,这些人员是如何支持到不同的项目虚拟团队当中,如图6-6所示。

这种分工模式的优点在于,可以改进“职能支撑型分工模式”横向联系差、缺乏弹性、客户/项目关注程度不高的问题。它的特点表现在围绕某项专门任务、或某个客户成立跨职能部门的专门机构上。例如,组成一个专门的客服团队去从事该客户服务相关的工作,在系统设计、系统集成、系统上线、系统运维各个不同阶段,由相关部门派人参加,力图做到条块结合,以协调有关部门的活动,保证任务的完成。这种组织结构形式是固定的,人员是相对不固定的,任务完成后就可以离开。人员的调动主要依靠相关工作流程,各部门人员在不同的流程中承担相应的角色职责,通过在流程中不同角色的工作来实现这种虚拟团队的合作。此外,由于这种分工模式基于多项目、多数据中心管理,故新增项目或数据中心不会对组织带来太大的影响。

这种分工模式的不足为:项目负责人/客服经理的责任大于权力,因为参加项目的人员都来自不同部门,隶属关系仍在原单位,只是为“会战”而来,所以项目负责人对他们管理困难,没有足够的激励手段与惩治手段,这种人员上的双重管理是矩阵结构的先天缺陷;由于项目组成人员来自各个职能部门,当任务完成以后,仍要回原单位,因而容易产生临时观念,对工作有一定影响。

这种分工模式适用于客户种类较多、服务要求不一致,数据中心较多的企业类型。但前提在于要在企业内部建设起较好的管理流程与人员激励机制,且垂直机构有较强的人员培养能力。

3. 人员管理

考虑到人员管理对数据中心运维管理相当重要,因此需要针对企业用人的生命周期,结合一些安全的控制来建立对数据中心人员的管理体系。

6.2.3. 运维管理的流程要求

数据中心建立的管理流程除应满足数据中心自身特点外,还应能兼顾客户、管理者、服务商与审计机构的需求。由于每个数据中心的实际运维情况与管理目标存在差异,数据中心需要建立的流程也会有所不同。为能让读者对数据中心运维管理流程可能涵盖的范围有一个较为全面、规范的了解,本节以基于ISO20000、ISO27001、ISO9001和ITIL等标准要求而建立的商业数据中心为例,介绍数据中心在运维管理流程建设方面的要求。

1. 运维管理流程的范围

数据中心管理框架应包含以下七个管理领域:

(1) 体系管理平台:以ISO9001质量管理体系框架搭建的管理平台作为管理接口。管理层通过这些流程制定管理方针目标,测量目标的执行,监督流程管理效果,执行PDCA(即Plan、Do、Check和Action)循环,以改进数据中心绩效,管理数据中心各类资料文件。

(2) 资源管理域:包含数据中心内部人员、网络、设备、基础设施、环境等资源的管理流程,是数据中心统一管理的内部资源。

(3) 服务管理域:包括与客户交互的相关流程文件,是数据中心与客户的管理接口。

(4) 服务支持管理域:包括数据中心内部运作过程中的事件、问题、变更、发布处理流程等。

(5) 服务交付管理域:数据中心财务管理、服务的策划和变更、可用性管理、容量管理、业务连续性管理等方面的管理内容。

(6) 资源信息管理域:包括数据中心的信息资产管理、配置管理、输入/输出管理、风险评估等工作的管理。

(7) 厂商管理域:包括服务商管理的相关流程,是服务商与数据中心管理的接口。

以上7个管理域所构成的管理体系框架内的流程,按照ISO9001标准的要求被划分为4阶文件。

第一阶文件是“手册”,包含体系管理平台部分的全部文件。用于管理层对整个管理体系进行管理,制定方针目标、进行管理评审等工作。

第二阶文件是“指南”,该阶文件根据数据中心各部门的职责规定了某一具体业务的流程,并涵盖了除“体系管理平台”外其余6个管理域的文件。公司管理层可以通过这一阶文件规定各部门的工作范围及业务在各部门间的流转过程。

第三阶文件是“工作指引”,是数据中心各部门根据第二阶文件要求编写的具体部门的具体业务操作手册。同样涵盖了除“体系管理平台”外其余6个管理域的文件。该阶文件是数据中心各部门管理其内部工作的重要依据,也是员工执行管理体系的指导文件。

第四阶文件是“支持性文件”,包括支持业务流程运行的各类表单、技术文件。该阶文件记录数据中心各项业务流程运行的具体情况,还可作为体系运行结果的直接证据。

2. 体系管理平台

体系管理平台用于管理层对整个管理体系进行管理,制定方针目标、进行管理评审,持续的改进数据中心的各项流程制度。它是以ISO9001质量管理体系为基础搭建的管理整个数据中心运维管理体系的管理平台。主要作用有两项:

(1) 为数据中心的管理层提供管理整个数据中心运维体系的界面。数据中心通过管理平台内的流程,进行方针、目标的制定、企业内部资源的分配、流程文件的修订发布、管理流程执行效果的审核、管理评审、运维数据的收集评审、执行持续改进运维体系的措施、调整管理体系框架等工作。

(2) 为外部审核机构及客户了解数据中心的管理体系框架提供参考。

体系管理平台的文件主要包括8个,分别是:

(1) 管理手册:描述管理体系的框架结构、执行范围、组织结构及各部门的主要职责。

(2) 适用性说明:描述管理体系所遵循标准的适用条款及不适用条款的说明。

(3) 文件管理手册:用于规定数据中心管理体系内的文件修订、发布、废止、文件版本控制、文件标示控制、文件保管的规定、文件的废止销毁流程。

(4) 记录和资料管理手册:用于规定各类文件资料的保密等级及使用权限控制规定、查阅权限及保密资料的查阅申请流程、记录资料的保管规定(例如,保管期限、保管部门、记录资料的作废、销毁规定等)。

(5) 内部审核手册:规定了数据中心进行内部管理体系审核的周期,审核范围,内部审核员的选用方式,执行内部审核的流程,各部门在内部审核中的职责,审核后的纠正预防措施的制定、执行工作,纠正预防措施执行效果的监督检查工作。

(6) 纠正预防措施手册:用于规定整个管理体系在审核、管理评审过程中发现的需改进工作的纠正预防措施的制定、执行、监督检查工作的流程,以确保纠正预防措施被有效落实。

(7) 管理评审手册:用于管理层评估管理体系的运行效果,评估公司各项方针指标的执行情况,修订方针、目标,适时修订体系文件。

(8) 不合格控制手册:规定了服务不合格的概念及发生服务不合格后的处理方法。

3. 资源管理

数据中心资源管理所涵盖的范围很广,包括环境管理、网络管理、设备管理、软件管理、存储介质管理、防病毒管理、应用管理、日常操作管理、用户密码管理和员工管理等。

1) 环境管理

数据中心环境安全管理的重点在于如何根据不同区域的特点使用不同的安全管控和出入原则。对重点的区域可以选用先进的安全设备,使用严格的进出管理控制制度进行管理。

在制定数据中心环境管理相关文件时,通过对各区域内所存放的信息资产的等级进行分析,将数据中心划分成不同类别的管控区域和安全区域。建议至少划分为3类区域:公共区域、办公区域、安全管制区域。

(1) 公共区域:这些区域通常用于数据中心生活与展示的配套区域。该区域允许员工及获准进入数据中心的第三方、客户在遵守相关制度的前提下自由进出。

(2) 办公区域:数据中心内存放日常行政办公信息处理设备和其他办公设备,开展日常工作的区域。这类区域的进入通常需要办理相关的进入申请,配备有视频监控系统。

(3) 安全管制区域:数据中心内存放核心信息处理设备和供配电等基础设备,开展一线服务工作的区域。这类区域严格限制人员设备的进出,有先进的门禁及监控系统以确保信息系统安全。

在编制环境管理相关流程时应考虑人员进出的要求,还应考虑设备和物品进出的流程。设备和物品的进出应得到正式的审批,特别是对于安全管制区域所有的IT类设备、存储介质应重点控制。

2) 网络管理

网络作为数据中心重要的资源,应制定相关流程予以控制。建议网络管理流程包括如下管理内容:

(1) 网络拓扑结构:应明确网络的拓扑结构,创建网络拓扑结构图,并在网络结构变化时及时更新拓扑图。网络拓扑结构的变化应有记录并得到适当的审批,应有专门的人员负责网络拓扑结构的调整。

(2) 网络的访问管理:应将网络划分为不同作用的网段,例如办公网、生产网、管理网,公共网络。规定有权访问各类网络的设备和人员,明确网络接入的申请、审批流程和终止接入的流程,做到网络接入、终止接入过程受控,有专门的人员负责网络接入和终止接入的管理工作。

(3) 网络系统日常维护流程:应有专门的工作指引用于指导网络设备的日常维护,日志的备份、配置信息的备份。

3) 设备管理

数据中心的设备管理主要包括对设备的固定资产管理,设备维护管理等。数据中心在起草相关流程文件时应关注以下几点:

(1) 编制设备清单:明确设备的所有者、管理维护人员或部门、开始使用的日期、设备的重要等级等信息。此类信息最好悬挂或张贴于设备上或设备周边的醒目位置以便于管理。

(2) 制订设备的维护计划:规定具体设备的维护日期、维护人等信息,并由专人负责按照维护计划进行维护或联系、督促服务商执行维护。

(3) 将设备按重要等级进行分类:设备按照等级分类,并按不同的设备重要等级制定不同的管理策略,最大限度的确保重要设备的运行。

4) 软件管理

数据中心软件管理通常需要关注以下三项内容:

(1) 计算机系统安装软件的管理:对于数据中心的办公用计算机、监控用计算机和生产用计算机来说,其安装的软件应该受到严格的控制,避免员工随意安装软件。从软件管理角度,数据中心应建立可安装软件的认证工作,通过对软件使用的分析建立一张可安装软件的清单,对于清单范围外的软件不允许安装。对于监控、生产用的计算机及可连入生产网的计算机,其安装的软件需经过认证,并对所安装的软件进行记录,定期检查是否存在使用其他软件的情况。

(2) 软件维护及补丁管理:随着各种利用安全漏洞的病毒和恶意程序的增多,软件维护和补丁的更新工作也显得极其重要。对于软件补丁的安装管理应做好以下几项管控工作:补丁的测试、补丁的发放和安装、版本控制,建议补丁的管理由专人负责。

(3) 数据中心软件许可证的管理:随着知识产权意识的提高,是否使用有合法许可授权的软件已经成为越来越多数据中心和客户关注的问题。软件许可证的管理要作为数据中心的一项重要工作。其重点在于管理数据中心所拥有的合法软件许可证,确保在许可证许可范围内使用软件,确保软件的安装有记录可查。

5) 存储介质管理

数据中心经常面临大量的介质管理工作,介质管理工作的成功与否直接影响数据中心的信息安全。一个良好的介质管理工作应包括以下几方面的内容:

(1) 空白介质与有数据介质保存方式的规定:两种介质分开保存并有明显标示以示区别,同时应明确介质的保存地点,做到介质统一保存。

(2) 应制定统一的介质编号、标示原则:对介质作统一的编号标示,便于介质管理。

(3) 有条件时建立介质管理员制度:确保介质的专人管理,可减少介质管理的混乱。

(4) 有数据介质的领用查阅应得到控制:介质领用、报废应有适当的审批过程。应规定清除报废介质内残余数据和销毁处理报废介质的流程,避免信息泄露。

6) 防病毒管理

随着计算机病毒的日益泛滥,防止数据中心的生产设备、办公设备受到病毒侵害已经成为数据中心管理中不可缺少的工作内容。防病毒管理流程主要包括以下几个方面:

(1) 防病毒软件的管理:这里主要包括软件的安装、软件的设置、病毒库更新,软件版本控制、定期查杀病毒等。

(2) 病毒资讯:安排专人随时了解病毒最新信息,可能爆发的病毒类型、染毒后现象及对信息系统的影响,查杀方法等,并将这些信息通过定期通告和随时通报两种方式提醒数据中心相关人员查防。

7) 应用管理

广义的应用管理包括了数据库、中间件和应用系统本身在内的所有管理。它是绝大多数IT服务的“灵魂”。对于数据中心而言,挑战在于要同时管理大量复杂并且相互关联的应用。在这种情况下,除了要建立并运用同样适用于整个应用管理的ITIL流程外,几个适合数据中心应用管理的最佳实践是:

(1) 将应用按重要程度进行分级。毫无疑问,理想情况下,所有的应用都应视为同样“重要”。但是在资源总是相对不足的现实情况下,必须区别对待。因此,在管理数目众多的应用系统时,基本的一点就是根据应用系统所提供的IT服务的重要性来对应用系统进行级别划分,并以此进行归类。这个级别的定义可以提供应用系统管理维护所涉及的多个流程,包括事件管理、问题管理、安全级别管理等最基本的信息。例如,一个一类应用(最重要)中断1小时和一个四类应用(相对最不重要)中断1小时,显然事件的等级是不一样的。所以,将应用按重要程度进行分级对于更为合理的分配资源有重要意义。

(2) 制作应用地图。首先要制作系统结构图和网络拓扑图,同样,还需要制作应用拓扑图,也称为应用地图。如图6-7所示,应用地图将应用按其功能类别划分为应用群,赋予不同的色块标识进行布局,使其便于统计和管理。一个应用占用一行或一列,在这行或者这列中,从首到尾,分别在每一格列出网络设备、服务器、数据库、中间件,最后是应用。每一格都可以再标示出具体的信息,如服务器的型号,数据库的版本,应用的名称和版本等,从而清晰地表现出各个应用相关的最主要信息。应用地图是快速了解总体应用部署情况,并在应用出现故障时,迅速定位原因,最为直观有效的形式之一。

图6-7 应用地图

(3) 了解应用数据流。虽然应用地图可以帮助快速了解应用和基础系统之间的关系,但是应用和应用之间的逻辑关系却没有展现。所以,对于数据中心而言,深入研究并绘制多个应用系统之间数据的流向是有必要的。应用数据流可以用图形,也可以用表格来表示。应用数目较少时,用图比较直观;但当应用数目超过一定量时,表格的形式就更为合适。但不管是用图,还是用表,应用数据流都应该至少包含以下几个元素:数据提供的应用系统名称(一般称为上游应用)、提供的数据类型、文件名称、时间、周期、本应用系统名称以及数据接收的应用系统名称(一般称为下游应用)等。如图6-8所示,针对任何一套应用系统,通过应用数据流图,可以很清楚地知道一旦停运,对其他应用系统的影响,这对于事件、问题或变更的影响评估有非常重要的意义。

图6-8 应用数据流图

8) 日常操作管理

数据中心的日常操作管理主要包括数据中心内部生产系统、办公系统、动力设备、环境保护、监测系统的数据处理、操作、维护的管理,以及数据中心信息处理设施、基础设施设备的软硬件运行情况巡检等监控工作的管理。

数据中心应该为每一台设备编制相应的操作工作指引。不建议以服务商或设备制造商提供的使用说明书或技术资料直接作为工作指引使用。工作指引编制应该满足数据中心实际使用的需要,用于指导操作人员在实际环境下操作设备的各项功能。

建议制定相关的巡检工作指引,规范数据中心的日常巡检工作。工作指引应规定巡检的周期、巡检项目、判定设备正常的标准、出现异常后的记录和汇报方式以及事件管理的接口。对巡检设备及内容做成检查表,巡检记录以表格形式呈现。

9) 用户密码管理

用户密码是数据中心运行的重要信息。用户密码的妥善管理可以减少数据中心运行的风险,提高数据中心运行的效率,确保信息的安全。

用户密码管理不完善的数据中心可能会遇到如下问题:

(1) 管理员密码丢失(忘记密码)。

(2) 登录时发现密码不正确,不知是谁改过。

(3) 需要对系统进行调整时发现管理员休假,但只有他有密码,所以系统调整工作只能暂停。

(4) 管理员偶然发现系统里有一个未知用户,经查发现该用户属于一个曾经在数据中心工作的人员,该人员已离职半年,但该用户没有被删除。

这些都是用户密码管理不完善的结果。一个良好的密码管理流程主要应包括以下几个方面:

(1) 用户密码分级管理:数据中心应根据密码的重要程度将密码划分为若干个等级,并对不同等级的密码采用不同的管理策略。

(2) 明确用户密码创建、变更流程:用户密码的创建、变更和使用应该有一套严格的流程进行控制。避免不受控的密码创建、变更和使用的行为。

(3) 用户密码的使用中应注意以下问题:

① 一个用户密码只能一人使用,避免出现几人共用一个用户密码的现象。

② 用户密码的使用和生成应由不同人员分别进行,避免密码使用者私自修改密码。

③ 密码必须定期修改。

④ 密码的强度需要事先被定义。

(4) 密码的保管:对于重要密码,除在用户处保留外还应在适当的地点另外保留密码副本,以避免由于密码遗忘、丢失对数据中心运行造成严重影响。此外,建议使用密码信封管理密码。当密码保存在密码信封后,密码信封本身的制作、保存、更新应制定相应流程,以确保密码信封的管理是受控和安全的。

(5) 用户密码的撤销:数据中心应建立一套用户密码撤销删除的流程,重点加强离职人员及工作调动人员所用密码的撤销管理。

10) 员工管理

员工作为数据中心重要的资源需要进行有效管理。数据中心的员工管理流程应包括:

(1) 员工招聘、任用流程。明确员工招聘任用的流程,明确签订劳动合同和保密合同的过程。

(2) 员工培训流程。数据中心属于技术密集型组织。由于IT领域新技术、新产品层出不穷,所以确保员工获得相关的技术和能力培训显得至关重要。应规定员工接受培训的流程,员工培训主要包括上岗培训和日常培训。

(3) 员工离职及岗位调整流程。员工离职或岗位调整后,应完成各种工作交接,并应收回各类技术资料、系统权限、网络权限、出入证件、门禁系统权限。

4. 服务管理

1) 服务水平管理

服务水平管理是ISO20000、ITIL的重要组成部分,也是数据中心管理的重要组成部分。服务水平管理主要通过SLA(服务水平协议)/OLA(运维水平协议)/UC(支持合约)来协调IT服务各方之间的关系。服务水平管理主要管控如下活动:

(1) 识别客户需求:制定与客户沟通的相关职责,获取客户需求。完成SLR(服务级别需求), 作为制定SLA的重要依据。

(2) 定义服务项目:在确定SLA后,服务级别管理人员需要根据SLR总结出满足客户需求的服务项目,并形成服务描述单和服务质量计划。

(3) 签订协议:服务级别经理组织签署服务支持合同和运作级别协议,签署SLA。

(4) 服务级别的监控和报告:编写流程对服务级别协议执行的效果进行监控并形成报告。

(5) 评审和改进:服务级别经理应评审服务级别协议执行状况并作相关改进计划。

2) 业务关系管理

业务关系管理流程包含至少3个部分:服务评审、客户满意度调查、客户抱怨管理。

(1) 服务评审:与客户进行定期或不定期的针对服务提供情况的沟通。每次的沟通均应形成沟通记录,以备数据中心对服务进行评价和改进。

(2) 客户满意度调查:客户满意度调查流程主要包括客户满意度调查的设计、执行和客户满意度调查结果的分析、改进4个阶段。数据中心可根据客户的特点制定不同的客户满意度调查方案。

(3) 客户抱怨管理:客户抱怨管理流程规定数据中心接收客户提出抱怨的途径,以及抱怨的相应方式,并留下与事件管理等流程的接口。应针对客户抱怨完成分析报告,总结客户抱怨的原因,制定相关的改进措施。在实际工作中,有些重要客户的抱怨或客户抱怨的严重问题对数据中心影响较大。为及时应对客户的抱怨,应该规定客户抱怨的升级机制,对于严重的客户抱怨,按升级的客户投诉流程进行相应处理。

3) 服务报告管理

服务报告管理流程旨在向客户和管理者提供与服务相关的数据和信息。在服务报告管理流程中应明确以下几个要素:

(1) 服务报告各类数据的获取途径。做到一类数据只能由一个职能部门提供。

(2) 服务报告的内容定义。应确保和管理层、客户就相关服务报告的内容达成一致。

(3) 服务报告的提供周期。应该明确服务报告的提供周期,具体周期可根据客户或管理层的要求定义。

(4) 明确服务报告的制作部门和审批途径。

5. 服务支持

1) 事件管理

事件管理主要管控引起或可能引起服务中断或服务质量下降的不符合IT服务标准操作的活动。这里的事件不仅包括软硬件故障,也包括服务请求。当处理多个事件时应根据事件的影响、紧急程度、解决事件的难易决定事件的优先级。如在协议时间内无法解决事件还应考虑事件的升级流程。

事件管理流程与问题管理、服务水平管理、变更管理、配置管理有着复杂的联系。在制定数据中心的事件管理流程时应充分考虑事件管理与这些流程的关系和接口。下面通过事件管理流程简图来简单介绍事件管理的过程,如图6-9所示。

首先是事件的发起,在这张流程图中,数据中心的事件发起主要包括3个方面:客户请求、数据中心自动监控系统提供的报警、数据中心日常巡检中发现的异常。

在事件发生后,事件记录员首先记录该事件。在事件管理流程中应规定记录事件的内容,如果数据中心没有使用ITSM的电子化工具,应通过表格形式记录事件内容,表格的具体样式、内容,可根据实际业务特点设计。

在事件记录员记录事件后,事件经理可根据事件记录对事件进行初步支持和事件分类,在这一步,事件经理需要对事件的紧急程度、重要等级、事件影响和处理难易进行初步分析,由此确定事件的优先级。把事件设计的配置项关联到配置管理数据库(简称CMDB,指记录每个配置项(CI),以及不同配置项之间重要关联详情的数据库),分配事件处理任务到相关受理人员。

在事件经理分配任务后,事件受理员需对事件进行分析和处理。处理事件时可参考问题管理的相关信息。

在事件分析并给出解决方案后,进入事件的解决过程。事件的解决通常需要通过变更管理流程进行。所以,这一步需要留下变更管理的接口。在处理完事件后,需要和问题管理交互信息。

当事件确认解决后,由事件记录员关闭事件。

2) 问题管理

问题管理流程是通过调查和分析IT基础架构的薄弱环节,查明事件产生的潜在原因,并制定解决事件的方案和防止事件再发生的方案。与事件管理强调处理速度不同,问题管理是强调查处事件的根源,从而制定恰当的解决方案,防止类似事件再次发生。

通常问题管理与事件管理、变更管理、配置管理都有很紧密的联系。下面以问题管理流程图(如图6-10所示)为例,介绍问题管理的主要活动。

数据中心问题管理部门通过对事件等信息的分析提出问题,并由问题管理员记录该问题。

问题经理对问题进行分析和处理。该部分工作主要包括以下4项:

(1) 将问题关联到事件管理流程记录的相关事件。

(2) 将问题关联到配置管理项。

(3) 设定问题的优先级。

(4) 将问题分配给问题受理员处理。

问题经理将问题分派给问题受理员后,问题受理员通过分析,查找问题的原因并制定相关解决措施。

当问题的原因被发现并得到了解决措施后,应由问题经理管理问题,同时应通过变更管理进行相关变更,并通过配置管理流程更新相关配置项。

问题管理的最后一步是更新知识库。

问题管理流程本身并不复杂,但很多数据中心都不能很好地实施问题管理流程。通常大多数数据中心在实施问题管理流程时遇到的最大“问题”就是“找不到问题”,从而导致问题管理流程不能被真正实施。因此,建议采用如下方法发现数据中心的问题:

(1) 充分利用服务报告,从报告中未能满足SLA的情况入手发现问题。

(2) 充分利用事件管理流程,把具有相关性的事件作为问题管理的研究对象。

(3) 利用系统管理工具的监测数据发现问题。

(4) 通过客户满意度调查、客户座谈、客户反馈找出问题。

3) 变更管理

变更管理是在最短的中断时间内完成基础架构或服务的任何一方面变更的流程。通常情况执行了一个问题管理流程、事件管理流程、服务水平管理流程后,需要通过变更管理实施事件管理流程或问题管理流程所产生的事件处理方案或问题解决措施。

变更管理在施行中应注意通过合理的计划和周密的准备把中断业务或服务的时间减少到最小。

下面就以变更管理流程图(如图6-11所示)为例,介绍变更管理的主要活动。

变更流程的启动:通常,事件管理流程、问题管理流程、服务水平管理流程会启动一个变更管理流程。变更经理需要对变更请求进行审批。在这个阶段,变更经理主要对变更请求进行复核,并确定变更的优先级,然后将变更分派给相应的变更受理员进行变更操作。

变更受理员根据变更的情况制定变更执行的详细计划,这些计划应尽量详细以减少由于变更时间过长而对服务的影响。应在制订变更计划的同时制订一个变更失败后的回退计划,以避免一旦变更失败对数据中心运维造成较大影响。

变更经理需要对变更受理员制定的变更计划进行审批,然后交由变更实施人员进行实施。变更实施后,变更受理员应对变更实施的结果进行检查,以确认变更执行有效,并将结果通报变更经理审批。变更经理审批完变更后,变更受理员可以关闭该变更流程。

6. 服务的交付管理

1) 容量管理

容量管理主要关注企业与IT基础设施之间的关系。这个流程不仅要评价现有服务的能力,还要分析和预测数据中心未来发展的需要。

容量管理流程应着重规范以下3个方面的内容:

(1) 业务能力管理:关注数据中心未来业务对IT服务的需求,并确保这种未来的需求在制订业务能力计划时得到充分的考虑。

(2) 服务能力管理:关注现有的IT服务能力、品质能否达到服务级别协议中所确定的服务目标。

(3) 资源能力管理:关注IT基础架构内每个组件的能力和使用情况,并确保IT基础架构的能力足以满足支持服务级别协议被履行。

数据中心可通过编制能力计划的形式完成以上工作内容。

2) 业务连续性管理和可用性管理

在当今以服务为导向和以客户为中心的业务环境下,维持数据中心的持续运维对数据中心具有重大意义。尤其在发生灾难的情况下如何确保数据中心的持续运作是数据中心管理人员必须关注的问题。

业务连续性管理就是负责数据中心预防灾难、增强IT基础架构在灾难发生后的恢复能力的管理流程。它着重确保数据中心在诸如地震、洪水、火灾、失窃、恐怖袭击、网络攻击、大范围停电等灾难后尽快恢复运作,减少因数据中心停止运行而带来的损失。

数据中心的业务连续性管理流程主要包括制定业务连续性目标、业务影响分析、灾难恢复应急预案三方面内容:

(1) 制定业务连续性目标:它是数据中心制订业务连续性方案,进行风险分析的重要依据。确定数据中心发生灾难后可接受的业务停顿时间,是其主要内容。

(2) 业务影响分析:指对可能造成数据中心业务中断的灾难事件进行分析,重点是分析其对应的场景、业务替代难易程度、对相关业务持续的影响、对数据中心整体发展的影响、灾难事件所发生的概率等。目的是筛选出最可能影响到数据中心持续运维的灾难事件场景,为制定应急预案确定前提条件。在进行业务影响分析时应关注:

① 场景的确定:从替代性风险、中断与否、影响程度、发生概率四个方面对不同场景的不同原因进行分析,找出风险值最高的场景原因,为灾难恢复计划的制订确立场景。

② 可接受风险值的确立:在综合衡量成本与各场景的风险值后,决定数据中心对风险值的接受程度,凡风险值高于可接受程度的场景均需制订灾难恢复计划。

(3) 灾难恢复应急预案:应急预案是为确保发生灾难事件后,尽快消除紧急事件的不良影响,恢复业务的持续营运而制定的应急处理措施。应急预案的注意事项:

① 根据业务影响分析的结果及灾难场景的特点编写应急预案,确保当紧急事件发生后可维持业务运作,在重要业务流程中断或发生故障后在规定时间内恢复业务运作。

② 应急预案除包括特定场景出现后各部门、第三方的职责与任务外,还应评估复原可接受的总时间。

③ 应急预案必须经过演练,使相关责任人熟悉应急预案的内容。

3) 财务管理

IT服务的财务管理着重负责将IT服务运作中所包含的所有资源进行货币化管理。该流程主要包括预算编制、IT核算、服务计费3个主要内容:

(1) 预算编制:预算编制是数据中心用于预测和控制费用开支的一个子流程。IT预算是由定期协商已设定的目标和对当前预算执行情况进行日常监督两部分组成。

(2) IT核算:IT核算是指对IT服务运作过程中和对服务相关的成本进行确认、计量和报告的过程。

(3) 服务计费:服务计费是负责向使用IT服务的客户收取相应费用的子流程。服务计费包括资费对象的确定和计费方法的选择。

7. 服务的资源信息管理

1) 信息资产管理

信息资产管理是数据中心实行信息安全管理的重要基础,通过该工作可以让数据中心管理者清楚地知道自己的管理对象,以及这些管理对象的重要程度。这里提到的信息资产指的是数据中心内部与信息安全相关的实体与非实体资产。信息资产通常包括:硬件、软件、数据、文档、人员、商誉、服务商等。在考虑信息资产管理流程的建设时,需要关注以下几项内容,包括:识别信息资产、信息资产的分级管理、信息资产清单等。

2) 配置管理

配置管理的目标在于,确保只有经过授权的组件才能在 IT 环境中得到应用,并对所有变更调整实施记录和跟踪。在配置管理中最基本的信息单元是配置项,所有的软硬件和各种文档,如服务器、环境、设备、网络设备、台式电脑、移动设备、硬盘、内存、CPU都可以是配置项。配置管理的流程主要包括配置管理规划与构建、维护配置数据模型与CMDB构建过程、配置项数据的维护、配置数据的审计等。

3) 风险评估管理

风险评估管理流程是对数据中心信息资产的风险进行识别,制定弱化或消除风险的方案,并实施该方案的管理流程,也是ISO27001标准对数据中心管理的要求。制定这一流程可以使数据中心明确其风险分析方法和风险分析过程,并明确如何将风险分析结果落实到数据中心的管理制度之中,从而减小风险对数据中心信息的影响,提高信息的完整性、可用性、机密性。风险评估管理的工作主要包括:风险识别、制定风险可接受水平、选择安全控制措施三项工作。

4) 输入输出管理

数据中心各类保密信息的输入/输出应得到有效控制。数据中心应制定相关流程管控保密信息的输入/输出流程。该流程所涉及的重点是对保密信息的识别和管理。保密信息必须有专人管理。保密信息的获取应得到批准,并从固定的渠道输入/输出,做到信息流动受控。

8. 服务商管理

数据中心各类服务商的服务品质对数据中心向客户提供服务的品质有一定的影响。对于数据中心而言,服务商的管理流程至少应包含以下几个方面。

1) 服务商的选择

在服务商选取原则方面,通常情况下应考虑该服务商在相关服务领域的资质、经验、运维情况及满足数据中心服务要求等方面的能力。

服务商选择的内部流程方面,通常应避免仅有一个部门负责服务商的评估工作,如果有可能,数据中心应至少由两个相关部门组成评估小组,从不同的方面提出对服务商的选择要求,并做评估。数据中心可以把对服务商的要求制成评分表用于对候选服务商打分,最后根据评估打分的情况确定服务商。

2) 服务合同的签订

服务合同的签订是服务商管理的重要一环,数据中心应拟定签订服务合同的流程。如果服务商可能接触到数据中心的重要信息,还应和服务商签订保密合同以保护数据中心重要信息的安全。

3) 服务商的定期考评

服务商开始为数据中心服务后,数据中心应定期对服务商的服务质量进行考评。考评周期可以根据服务商提供服务的性质和工作量选择,但一个服务合同期内至少应进行12次服务考评。

数据中心应根据服务商提供的服务水平协议考评服务商的服务质量,有必要时还可以听取客户对相关服务的满意情况,从而对服务商的服务进行评估。

服务商的考评结果应作为服务商续签合同、是否继续履行合同的依据,也可以作为督促服务商持续改进的依据。

4) 服务商的合作关系管理

服务商的服务质量对数据中心的服务质量有着很大的影响。所以与服务商良好合作,共创共赢局面显得尤为重要。为能建立并巩固数据中心与服务商之间的关系,需要数据中心将一些服务机会研讨、服务质量评估等工作纳入到日常的服务商管理流程当中。

6.2.4. 运维管理的信息化要求

对数据中心运维管理产品的要求始于对数据中心信息系统的总体规划。这种规划无论大小、深浅都应始终坚持从数据中心的运维战略、业务需求、风险控制、成本效益等目标出发,同时还应清醒地认识到两个常见的决策误区:一是认为采用了高端的运维管理产品就代表了高质量的运维水平。对于这一认识毋庸赘言,从上述对人员、流程、合作伙伴的要求就可以看出,产品仅是一个方面而不能代表全部;另一个误区是不重视运维管理信息系统的建设,认为在信息系统建设上的投入不能带来直接的价值。对此,从专业化的数据中心运维角度来看,数据中心信息化能够实实在在带来的好处可以简单概括为以下几个方面:

(1) 提高效率、降低成本。一个运维管理产品的投入使用往往可以带来十几倍以上的生产力提升和相应的成本降低。业界的普遍看法是:运维管理信息系统其实就是数据中心业务的生产系统。

(2) 使运维风险保持在可以控制的水平。数据中心如果不重视对风险的控制就如同在高速公路上行车不系安全带一样危险,而危险一旦发生想继续行驶可就难上加难了。

(3) 改进服务质量提升竞争力。数据中心的业务可以概括为:通过运行IT系统来向客户提供服务。没有信息系统的支撑来运行IT系统就如超市里仍然采用手工结账一样不能让顾客满意。

在随后的内容中,将针对数据中心运维管理产品中处于核心地位的监控管理产品(包括:基础设施监控产品和IT监控产品)和IT服务管理产品进行更进一步的介绍,而介绍的角度主要从选择的要素与系统部署架构出发。

1. 基础设施监控管理系统

随着计算机技术的发展和普及,计算机系统数量与日俱增,其配套的环境设备也日益增多。数据中心机房已成为各大单位的重要组成部分。数据中心机房的环境设备(供配电、UPS、空调、消防、安防等)必须时时刻刻为计算机系统提供正常的运行环境。一旦数据中心机房环境设备出现故障,就会影响到计算机系统的运行,对数据传输、存储及系统运行的可靠性构成威胁,如事故严重又不能及时处理,就可能损坏IT设备,造成严重后果。

1) 基础设施监控产品的选择要素

(1) 技术先进性。

(2) 系统高可靠性:系统硬件和软件均采用技术成熟的产品。

(3) 系统运行管理方便:界面操作简单,技术支持能力强,承建单位技术实力强,服务完善。

(4) 系统可扩展性能强:模块化结构有利于扩容与扩展。

(5) 系统兼容性:支持世界厂家提供的智能设备,实现完美的监控。

(6) 投资少:系统选型具有高性价比。

(7) 建设时间短:在较短的时间内完成系统的安装调试。

2) 基础环境监控管理系统部署模式

针对基础环境监控的部署一般采用采集处理、传输数据、监控展现和管理三层模式。下面以多数据中心基础环境监控管理为例说明,如图6-12所示。

图6-12 数据中心机房基础设施监控管理

(1) 数据采集和处理:各数据中心通过对基础环境和设施的数据采集与处理在本地实现监控。

(2) 传输层:各数据中心通过传输层将采集和处理的数据传送到需要的管理中心,如果是接入到Internet网络必须通过防火墙进行网络设定。

(3) 监控展现和管理:通过传输层,将数据中心采集和处理的基础设施的监控指标进行集中管理,生成报表和报警。

2. IT系统监控管理系统

为了满足企业对IT服务要求的不断提高,不仅在可用性上,同时也要在资源利用率、可扩展性、容量管理等方面满足用户需求。数据中心应建立能对操作系统、应用系统和网络状况等进行故障监测和性能管理的监测系统。

通过此类系统,一方面可以对数据中心的服务器及其应用进行实时监测,另一方面也可以为系统管理人员提供完善的监测和报警平台以及可用性、容量管理的实时报告。最终能帮助系统管理人员快速定位并查找故障根源,有效降低由于服务器应用系统发生故障或失败而导致的风险,提高数据中心运维的服务质量,保证数据中心的服务器及其应用能7×24持续正常、稳定的运行,并根据客户需求的不同,提供5×8、7×12的分级服务。

1) IT系统监控产品的选择要素

虽然业界有许多满足此类需求的解决方案,但是如何才能找到一套符合企业运营管理特点的IT系统监控产品呢?在此,可以从以下几个方面评估产品功能,包括:

(1) 能否满足跨操作系统、远程监测管理的要求;

(2) 能否实现对服务器、网络设备、数据库、中间件、甚至应用系统的监测;

(3) 能否实现远程报警等多种报警方式;

(4) 能否提供丰富的报告、资源统计、分析等;

(5) 在进行数据采集时能否支持代理与无代理相结合的方式;

(6) 是否具备方便实用的用户管理功能;

(7) 能否提供开放的API接口;

(8) 是否能够保障监控的安全性。

2) IT系统监控管理系统部署模式

IT监控系统的部署模式一般分成被监控层、采集层、数据处理层、服务展现层、服务管理层。IT监控系统部署模式如图6-13所示。

(1) 被监控层:被IT监控系统监控的对象,如网络设备、系统资源、应用资源、数据库资源。

(2) 数据采集层:根据需求采集监控对象的资源数据,并进行规则设定。

(3) 数据处理层:根据需要对采集的数据做进一步处理、保障数据的完整性,对数据进行选择性存储。

(4) 监控服务展现层:将IT监控系统处理后的结果,展现给运维管理人员和关注IT资源的相关人员。

(5) 服务管理层:与服务管理的API接口,将展现的故障、问题,以服务管理的方式进入服务管理系统,实现由事件到服务的转换。

3. IT服务管理系统

作为一个数据中心,如何管理各项与IT运维直接相关的工作,如何让这些工作遵循一些国际最佳实践,如何提升IT运维过程中的工作效率与知识积累能力,部署一套符合ITIL标准ITSM工具平台,并在其上建立配置管理数据库和知识库,无疑是一个相对比较成熟解决方案。通过这样的IT服务管理平台,可以帮助数据中心以“服务”的方式进行信息技术管理,很好地解决流程、人员、技术之间的关系。

1) IT服务管理产品选择原则

IT服务管理系统的建设实践证明:无论是对内还是对外提供服务,无论是单一的数据中心还是多地域分布的数据中心,选择产品时都应在遵循“集中建设、统一管理”的总体原则基础上,保证系统建设具有系统性、实用性、高效性、可扩展性,以及技术上的先进性、规范性和安全性。具体来说,所选择的产品应能满足以下建设原则要求:

(1) 应建立集中的统一服务管理平台,对流程服务质量、运行状况、工作流程等实现实时监控、集中管理。

(2) 对于为流程管理直接服务的基础信息,应采用统一规划、统一标准、统一控制的方式建设。

(3) 实用性和高效性原则。

(4) 安全性原则:应体现在拥有完善的身份认证和授权,具有数据备份、应急处理与灾难恢复等技术措施,具备完善的包含“用户、角色、对象、动作、许可证”的权限策略库。

(5) 可灵活定制原则:从技术架构、数据和应用架构方面等方面均能适应后续的定制要求。

(6) 高扩展性原则:既要满足现有和近期的性能要求,又要具备平滑扩展系统性能的能力。

(7) 易于集成原则:能够与IT监控系统、基础设施监控系统、消息通知系统、移动应用系统、集中报表系统、ERP系统、门户等进行集成。

(8) 灵活的报表技术:能提供统一化又能体现个性化的报表功能。

(9) 便于“统一规划、分步实施”:选择的产品应具有模块化逐步集成的能力。

(10) 产品厂商应具有强大的实力。

2) IT服务管理系统逻辑结构

IT服务管理系统逻辑结构如图6-14所示。

图6-14 IT服务管理系统逻辑结构

3) IT服务管理系统部署模式

IT服务管理系统的部署模式多种多样,取决于数据中心的业务发展战略和技术实现。图6-15为多数据中心IT服务管理系统部署。

图6-15 IT服务管理系统部署

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
如何推进IT运维数据中心问题管理
某银行省级数据中心IT运维服务体系建设完整思路
数据中心如何减少人为故障发生率
浅谈等保2.0背景下安全管理中心(SOC)的建设思路
数据中心基础设施运维管理——应急管理
固定资产管理系统该如何选择?
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服