运维建设之职责模型

导读

本文主要探讨IT运维工种的职责模型、职责演进、职业局限等问题,下文将IT运维简称为运维。

运维包括企业内部的自有运维团队、运维服务/软件提供商两类,本文的讨论主要针对自有运维团队。

运维的职责模型

运维的职责: 将工业制成品组装为服务,并维护其正常运转。工业制成品,包括硬件基础设施IaaS、软件基础设施PaaS、业务代码SaaS等。云原生架构下,维护服务正常运转(持续运营CO)是运维的主要工作,要求达成稳定、效率、成本、安全等多维度的目标(多快好省)。在CO的过程中,运维工作者通常遵循了解现状、发现问题、提升认知、制定规范、设立流程、抽象产品/建设平台、人工运营、智能运营的行为范式。

page.png

运维职责的阶段性

在公司的不同成长阶段,运维的职责重心会有所不同。业务初始的快速增长期,效率是关键,做好资源管理、快速协调资源、快速迭代发布是运维要解决的主要问题。业务成长到一定规模并持续增长时,稳定变为首要问题,完善观察能力、做好变更管理、做好容量管理、推动架构升级,保障不因非业务问题制约增长速度。业务成长至稳定期后,成本变的极为重要,资源管理、容量管理成为运维的关键主题。

纵观全局,虽然运维职责呈现出一定的阶段性,但在绝大部分时间里、其核心价值始终是稳定性保障。为了达成这一核心价值,需要在多个环节实施做管控:

  • 定方向:以稳定性工作为中心,建设、运营并举
  • 搭班子:招聘要求性格稳健、责任心强,五条军规护航
  • 做事情:以业务连接为底座,贯穿稳定性方法集合,在平台、架构、专业性等方面有所作为
    • 平台:工具比人更靠谱,使用受约束的弱智能(如经验智能)
    • 架构:相信架构决定运维的能力上限,拥抱云原生、关注治理
    • 专业性:纵向足够深,横向能迁移
  • 等等

运维的职责演进

云原生架构逐渐成为行业趋势,运维职责被逐渐转移、替代,边界进一步收缩(未被彻底干掉)。主要表现为:

  • 系统运维:硬件基础设施的运维工作转移到了公有云厂商,IaaS真实达成;留给系统运维的工作主要是面向云API的”云资产生命周期管理”,如多云管理、元数据运营等
    • 公有云资产是逻辑资产,其运维特质跟中间件类似,要求深度和精度、要求场景闭环,是不折不扣的专家岗
    • 目前有不少创业公司在做云资产管理,主要集中在编排、运营等方向,尚未形成通用能力
  • 应用运维:软件基础设施的运维职责被云原生体系替代。以K8S为代表的PaaS体系已然成熟,公有云厂商已将其定义成新的交互界面;软基础设施工程师角色应运而生,承担了”打通PaaS和我方应用”的建设任务。应用运维工作继续向应用层收缩,更加专注于应用生命周期的运营
    • 应用服务通常数量庞大、在运维视角有广泛的复用性,因此,应用运维更容易在运维子领域建立专业性、然后横向输出解决方案,成为运维架构岗
  • 平台体系:公有云场景下的系统运维、云原生架构下的应用运维,因其所负责运维服务的属性(如复用性)、数量等差异,导致了专家岗、架构岗的明显分化。对应的,在运维平台建设方向,也同时存在了场景闭环、横向建设两种思路,这也是由所服务对象的属性差异所致

这里,引用腾讯刘天斯的一个例子,来形象的描述运维职责的变化:

云计算时代的运维就好比组装汽车,客户根据自己的需要,通过PaaS能力,选择匹配的引擎、车轮、离合器等进行拼装,  
客户不用再关心汽车元部件的实现原理。
但,光有汽车是玩不转的,还需要有修路、加油站、交通控制等服务体系,运维就是承担这个角色。

运维的职业局限

稳定性运营的职责属性,往往会造成运维工作者”热心改良、抗拒革命”的性格特点。从历次运维领域的大变革来看,推动力主要来自外部、而非运维工作者自身(主要是基础架构)。Ops aim at NoOps, and Infra made it!




接下来的文章内容,是对上文章节的细节拆解、分析。

运维的核心价值

前文断言,运维的核心价值是稳定保障。在制定运维工作目标时,我们通常会遵循稳定第一、效率第二、成本第三、安全旁路的原则。因为,

  • 效率:缺少全局影响力。运维角度的效率更偏重运维内部;而超出运维范围的效率,更多的是效能团队主R
  • 成本:受限于公司体量。中小公司通常是间歇性投入,有自己挖坑、自己填的嫌疑
  • 安全:重要性持续提升。受到国家层面的政策支撑,足够重要,通常由安全部门主R
  • 稳定:具备全局重要性,又有持续投入的必要性,绝对契合运维的职业定位

核心价值是筛选器,在资源有限时可以做为取舍依据,也可以管理团队边界、避免贪多失焦。每个领域都有扩展边界的冲动。目前能看到,运维也在向大数据决策、ToB化输出、基础架构(K8S)、稳定管理、效能管理等方向扩展。领域的交叉,如果不能融合、创造出新领域,最后还是一场空。

运维的商业模式

纵观互联网、电信、金融、工业制造等领域,运维的商业模式主要有四种,

  • 免运维。高度成熟的商业产品往往具备免运维的特点,当企业购买、安装部署以及联调后,基本不需要提供后续运行维护支持
  • 外包运维。在单体应用、私有云建设模式下,企业通常采用驻场服务、定期或按需到场、远程运维的方式,将运维工作外包给专业厂商;对于使用公有云服务的场景,则通常选择购买云服务来解决一站式运维保障。外包运维主要适用于中小型企业
  • 自建运维。常见于互联网企业、大中型传统企业或者安全等级较高的企事业单位;即使采购了第三方的运维工具,也要求组建企业自有的运维团队,并逐渐走向集约化
  • 自建+外包混合模式。通常情况下,服务提供商是系统集成商或软件原厂商;当项目完成交付时,他们与企业自建运维团队共同提供运维服务。自建运维团队的主要任务是运维管理,而运维服务提供商的主要任务是运维执行,两者共同目标是提供可持续的运维服务运维的持续优化


Prev     Next