业务稳定性建设套路

导读

本文从运维SRE的视角,介绍了一种以故障处理为核心的稳定性建设思路。故障处理分为五个阶段:预防,发现,定位,止损,复盘。每个阶段都有一些成熟的套路来对应和优化。

故障处理模型

故障处理过程,一般分为五个阶段:预防,发现,定位,止损,复盘。如下图所示,

page.png

故障发生前,服务处于正常的状态。稳定性建设重点工作为故障预防,降低故障发生的概率(尤其是消灭掉预期内的故障源头)。

故障发生时,服务处于非正常状态(部分有损或者完全不可用),此时最重要的工作是止损、使服务恢复正常。发现是故障处理的前提,定位是为了找到一个止损方案。

故障恢复后,服务恢复到正常状态,此时需要组织复盘、从本次故障中学习成长。

稳定性建设套路

故障处理的五个阶段,分别有成熟的套路、对应的实施优先级。如下表所示,

page.png

其中,P1代表最高优先级、优先实施。

对于运维SRE来说,有几个值得注意的点,

  • 把组织和制度建设放到最重要的位置
  • 预防为主,止损优先
  • 止损手段的门槛要尽量低,如业务含义轻、可操作性强
  • 精力有限时,关注重点服务(服务分级)、控制大故障(故障分级)
  • 工具支持不足时,人肉也要抗住了(同时加班搞定工具:-D)

上述行动套路,在不同公司优先级会有差异,请酌情参考、避免被误导!



Prev     Next