田园木竹 | 运维风险量化建设思路

导读

风险量化是运维数据化的一个方面，在稳定性建设大盘中处于预防环节。风险量化是指：按照事先约定的打分规则，对各运维场景的人工操作结果进行分析，得出改进项、形成改进闭环。打分规则是否正确、普适、全面，决定了运维风险量化工作的结果质量。

背景

随着运维领域的演进，各项运维工作逐步精细化，普适的知识、经验、流程、规范等最佳实践逐步沉淀到了工具平台。一般可以认为，工具平台强制实施的最佳实践，最终都可以被完全信任。

由于业务差异、历史沿袭等原因，工具平台很难将所有的最佳实践强制实施，而是留下了很多人为控制的入口。如，部署工具通常会实现高峰期封线，但会留下一个紧急变更的操作入口、来做应急修复。人的决策、操作会受到了个人成长历史的影响，因此人为控制带来了结果的不确定性，风险量化主要针对人为控制的部分、不针对工具平台已经固化的部分。

要素

这里先给出运维风险量化的定义：按照事先约定的打分规则，对各运维场景的人工操作结果进行分析，得出改进项、形成改进闭环。有三个要素：运维场景，打分规则，改进闭环。

运维场景，一般要覆盖留下了人为控制入口的工具平台，如测试、部署、监控、预案等。

打分规则，一般要覆盖由人决策的配置、操作等，如监控采集配置、部署灰度操作。

改机闭环，一般可以包括提升人员认知、扩展平台能力两个方向。提升人员认知重在从流程、规范、经验等维度加强人对服务等运维对象的统一认知，扩展平台能力则是消灭人为控制的入口。

实施

风险量化要借助平台记录的结果数据，由工具完成数据分析，产出改进报表。人再根据报表内容实施改进，或是提升人员统一认知，或是进一步收缩运维工具平台的人为操作入口。

打分规则的最小单位一般是服务，会根据服务等级给与不同权重。打分规则是否正确、普适、全面，决定了运维风险量化工作的结果质量。打分规则的形成是整个风险量化工作的重点和难点。

应用举例

这里只是对打分规则的维度做了简单举例，具体实施过程还需要细化!

PS：实际制定打分规则时，可能会涉及到服务等级等信息，上述为了简化没有体现

Prev Next