关于故障的事后复盘,英文名 Case Study是非常有必要做的,当然是根据故障的级别,不可能做到每个故障都Case Study,除非人员和时间充足;
文档能力也是能力的一种,一般工程师的文档能力比较薄弱或者一般 ,但是一般各种类型的文档其实都有模板,根据模板填充内容也能事半功倍。
故障要有记录, 每个公司应当都有wiki,这些复盘应当记录下来,能学习到很多。Case Study会占用大量的时间, 但是中级以及重大故障还是有必要的。
下面介绍的就是复盘的整体套路:
原因:
云主机所在的宿主机物理故障导致多台服务器同时宕机.
影响面
1. 故障时间: 06/16 16:00 ~ 06/16 16:23 (此时间段是宕机时间 23min )
2. 影响服务: xxxx
3. 损失率: 11.35%
错误总计: 66312
请求总量: 584472
后续优化
- 将云主机打散,分布在不通的物理主机上.
以上是一个简单的故障复盘模型 , 第一步是先根据时间线还原整个故障开始到结束的过程, 第二就是找出问题点(root cause),第三就是看有什么具体的改进措施以及优化,避免再次出现同类故障。