Loading...
墨滴

李先生

2021/03/26  阅读:16  主题:橙心

SRE事故报告正确的打开方式

一、事故回顾的重要性

在SRE这个领域,事故报告是非常重要的一件事情,在国内比较火的两本书中《SRE:Google运维解密》《SRE生存指南》中都有一系列的介绍。其中在Mikey金字塔中处于一个呈上启下的作用。在事故回顾以上的所有层级都是关于未来的(规划和改进过程),而下层(监控和事故响应)的一切都是关于处理当前事故的。

二、事故回顾的定义

事故回顾又称根本原因分析,Root Cause Analysis 根本原因分析,简称RCA。RCA是一个系统性的识别“根源”的问题或事件和应对的方法,RCA的理念是防火而不是救火。

三、事故报告的目的

书写事后总结的主要目的是为了保证该事故被记录下来,理清所有的根源性问题,同时最关键的是,确保实施有效的措施使得未来重现的几率和影响得到降低,甚至避免重现。

四、事故分析

记录为什么会发生事故,从事故现场出发、深入挖掘各个方面。不管是什么样的事故,生产事故,日常问题分析,都可以写成报告,但是不能仅仅是为了写报告而写报告,如果不分析事故并找出发生了什么,写再多的报告也将毫无用处。

五、事故报告的模板

模板的格式大概如此,可以根据自己的喜好调整。

写在最后

李先生(Lemon),高级运维工程师(自称),SRE专家(目标),梦想在35岁买一辆保时捷。喜欢钻研底层技术,认为底层基础才是王道。一切新技术都离不开操作系统(CPU、内存、磁盘)、网络等。坚持输入输出,记录自己学习的点滴,在平凡中坚持前行,总有一天会遇见不一样的自己。公众号:运维汪(ID:Leeeee_Li)。

李先生

2021/03/26  阅读:16  主题:橙心

作者介绍

李先生

公众号:运维汪