在数据中心运维工作中,故障是不可避免的。对于在出现故障情况时,如何做到将损失降到最低、如何避免今后出现类似故障,总结出故障处理流程。
1、 纠正错误
在得知故障发生后,第一时间安排人员到现场对故障情况进行查看,确认故障的现象与范围。由引起故障之外的第二人对故障错误进行纠正,在过程中注意衍生故障或二次错误的发生
对于不能立即恢复的故障,可采用临时措施修复故障影响。要注意控制故障范围的蔓延,尽量将故障影响范围控制在最小范围内
2、 汇报领导
在故障得到初步控制后,立即上报领导及通报相关部门。对于人员配备允许的情况下,在纠正错误的同时汇报领导。尽量早的通知相应领导及负责人,可对一线人员给予必要的支持与指导,有助于故障的有效控制
3、 形成书面报告
在故障得到处理或阶段性处理完成后,由当事人对故障情况进行还原,形成书面文字报告,具体详细描述事件经过,经当事人确认后存档留存,形成原始记录
4、 查找根本原因
组织当事人、故障处理人等相关人员,根据实际故障现象、处理方法、当事人情况报告等资料,进行根本原因分析,进行必要的理论逻辑推演,确定产生故障的根本原因
5、 处罚意见
针对当事人情况报告、故障根本原因分析,及时出具处罚意见,处罚意见中根据各人员所负主要责任、管理责任、连带责任等进行不同的处罚决定
6、 整改方案
以故障根本原因为依据,组织相关人员会议,讨论预防预案、整改方案,并进行培训学习,引以为戒;对相同类工作进行相关三个月回溯检查,检查排除潜在隐患
7、 后续跟进
在事件处理完毕后,持续至少三个月事件跟踪评测,查看整改方案的执行力度与落实情况,对在执行过程中暴露的新问题再进行适当的调整与完善
通过树立更新组织过程资产,建立经验教训知识库,以及注重PDCA闭环管理的故障处理思路。虽然故障不可避免,但相信可以避免重蹈覆辙,实现迭代式的持续提升的目的
问题处理流程:
联系客服