FinOps成本管理平台

导读

本文主要介绍CH的云成本管理平台(CCMP,Cloud Cost Management Platform),要点包括:平台架构、计量计费、厂商对账、成本管控等。中间夹杂了必要的场景介绍。

云资源中的资源,主要指IT资源,下文中的资源、IT资源、云产品指的都是云资源。云成本管理平台,下文简称成本管理平台。

平台架构

成本管理平台,由几大部分构成:计量计费、厂商对账、成本管控、报表,如下。其中,厂商指的是各云厂商,合同指的是我方跟厂商签署的销售合同,ICSP指的是我方的内部云平台;内部云平台ICSP包装了多云资源、对内出售,是二级云服务提供商。

page.png

计量计费

计量计费,作用是:站在资源使用方(俗称甲方)的视角,统计各类云资源的用量、费用,用于后续的厂商对账、成本管控等。计费是各计费项的费用之和,即:费用 = ∑计费项(用量x单价),包含了计费项、用量、单价三个要素。

  • 计费项:主要取决于云产品的计费设计,如CPU/GPU按机型计费、足够简单,大数据PaaS服务按照集群实例计费、有点复杂
  • 用量:用量计算称为计量,计量取决于甲方在不同计费项上的技术能力,如CPU/GPU计量通过ICSP(内部云平台)、相对容易,CDN计量困难、直接使用云厂商的数据(云API、云账单)
  • 单价:单价设定称为定价,定价分为厂商合同定价、ICSP内部定价两种,分别用于计算云账单和内部成本分摊

不同云产品会有不同的计费时效。不同产品的计费项复杂程度不同,我方的技术能力决定了它的计量方式;计量方式又决定了计费的时效性,如ICSP通常能做到小时级时效,云API天级、云账单月级。如下图,CPU/GPU机器能做到天级时效,CDN/S3/流量天级时效,大数据PaaS/安全产品只能月级时效。

page.png

定价分为厂商合同定价、ICSP内部定价两种。厂商合同定价,是商务或采购沟通的结果,通常以合同的方式、约定各个云产品的单价(或折扣);使用合同定价计算出来的费用,用于和厂商对账、发现厂商账单错误。ICSP内部定价,指的是ICSP以二级云服务提供商的身份、制定单价,向内部业务团队出售IT资源或产品(极润中心)、或做成本分摊(成本中心);结合业务预先提报的预算,就能做到IT资源的成本管控。

计费是成本度量体系的数据基础,要保留多个版本的宽表明细数据、以支持上层的各种灵活需求,通常也要求周边维表支持多版本(一般是天级版本)。

厂商对账

厂商对账,作用是:对照合同、发现厂商的不合理费用,追溯并挽回损失(止损)。实现形式是,用我方计费得到的账单(合同账单)、跟云厂商提供的账单做比对。

账单模型,包括费用组成、费用结构等。费用组成,包括消费、退款、代金券、调账四类构成,本质都是用量和单价。费用结构,按汇总程度从高到低依次分为账号、产品、服务、实例、计费项五个等级(L0到L4)。账号是甲方在云上的企业账号。产品是厂商对云产品的分类,如服务器、对象存储、公网带宽、安全产品、AI产品等,账单模型由云厂商产品模型决定。服务是某产品下的一种具体型号的资源或组件,如ECS.C5.8xLarge机型、CKafka。实例是某类服务的一个具体化实例,如1台机器、1个CKafka集群、1个验证码包。计费项则是云厂商要求的、某类服务的计费模型。

对账实现,有厂商账单数据校验、厂商账单环比分析、厂商和我方账单对比三条链路,如下图。厂商账单数据校验,主要检查云厂商提供的账单是否存在数据错误(自恰),很低级、但很有必要;校验主要集中在账号消费、账户代金券、产品消费上。厂商账单环比分析,是站在时间环比角度、解释产品增量变化的业务原因,如12月相比11月GPU增加了160片V4卡(增幅20%)、原因是疫情爆发导致AI业务量增加了20%;环比分析能给人一种相对宏观、且可理解的的业务解释,财务人员是主要使用者。厂商和我方账单对比是绝对值比较,我方按照合同约定的单价、云厂商的计费方式、独立计算出一份账单,然后用我方账单跟云厂商账单对比、发现差异。

page.png

厂商对账是最有效的财务止损手段,也是FinOps的核心方向,其精度主要取决于甲方在对账上的投入。

成本管控

成本管控,以预算为目标、管控公司内部业务的资源成本,超预算时禁止新增或提升审批等级(管控)。成本管控有三个要点,即:分摊模型、预算、分摊、管控。

分摊模型

分摊模型,即成本模型、预算和分摊共用此模型,如下图所示。分摊模型共分为五级,其中资源、集群是对资源(或服务)的抽象,预单、业务、主体是对组织结构的抽象。

  • 资源:资源是云服务的统称,包括所有IaaS/PaaS/SaaS;为了便于管理,资源被划分为科目、子科目两级,如科目CPU下包含CPU在线业务、CPU数据库等子科目,子科目是资源分类的最小单位。为叙述方便,后文不区分子科目、而是用科目统一指代
  • 集群:集群是对资源的统一建模,每类资源(科目)都需要找到一个管理粒度、并将之定义为集群,如CPU在线业务的应用、对象存储-标准存储(GB)的桶、CDN(GB)的域名、带宽(GB)的IP、PaaS的集群、专线(元)的名称等。集群之下通常还可以抽象出实例
    • 对于无法提炼出集群概念的资源,使用产品名称作为集群,集群到预算再做比例分摊,如安全(元)子科目
  • 预单:预单即预算单元、技术成本中心,是从技术视角抽象出来的相对稳定的公司组织结构;预单通常包含多个服务组、又被一个技术部门包含,是资源和组织结构的结合点,资源成本通过预单、最终分摊到业务
    • 服务组无法取代预单,是因为应用微服务架构无法推广到绝大部分资源
  • 业务:商业视角的业务单元、利润中心,基本对应了公司对外提供的产品服务,用于高管、财务等角色
  • 主体:主体对应了企业法人,主要解决财税法等政策问题,用于CEO、法务、财务等角色

page.png

在实际操作中,预单是整个分摊模型的核心(技术视角),资源只有具备了预单归属、才能做进一步预算和分摊。预单之上还会有部门、用做技术视角的聚合展示,业务之上还会有业务群、用做财务/高管视角的聚合展示,部门、业务群只是特定的视图聚合不是建模核心。

按照上述分摊模型,整理出一个典型的分摊账单、如下图(集群维度太细被聚合掉了)。对于计费项复杂、尚未提炼出用量的资源,使用费用作为用量(对应单价为1),如其它科目下的专线、安全产品、技术服务费等。

page.png

预算

预算,目的是:设定成本管控的目标。预算一般以预单为组织单位、以月为时间单位、以自然年为周期,操作包括年度提报(年末提报明年预算)、季度调整(季末更新剩余预算)、不定期的业务更新(业务间调预算总额不变)。典型的预算数据(Q)结构如下。

page.png

预算管理,工作量集中在年度提报。年度提报的流程、要点,可参见文末的预算提报章节。这里只介绍预算用量的预估模型,即 「资源科目用量 = Fun(业务指标BM) - ∑技术优化」。其中,业务指标BM预估,反映了业务的增长预期,通常由商分或产品提供;用量函数Fun,是根据历史资源用量&业务指标BM的对应关系、拟合而出,历史资源用量也被称为基线、由FinOps提供;除此之外,技术人员也要背技术优化的指标 ∑技术优化,体现技术进步带来的成本降低。预算费用 = ∑资源计费项 (单价 x 用量),关键点是确定单价(定价),定价代表了ICSP的出现。

预算管理受很多因素限制。比如,预算追求逻辑自恰、无法绝对正确(玄学),团队间掰扯的情况很多,因为预算数值所依赖的业务指标BM预测、模型关系、技术优化都是预估值。比如,预算也会受到厂商商务策略的影响,满返代金券会影响预算目标制定(负预算)、月度成本管控(不定期发放),合同调整会影响ICSP内部定价,商务策略在时间、逻辑上的不确定性总是很有挑战。再比如,预算有强的人工运营属性、可以平台化但无法完全自动化,因为预算的资源科目、预算单元、增长管理等受限于公司战略下的业务结构、组织结构、收支目标等非技术因素,如下图。

page.png

分摊

分摊,目的是:将IT资源成本、分摊到各业务和主体,产出成本管控的消费数据。分摊,是资源中台从成本中心、向利润中心转变的关键。

分摊依赖资源的成本建模。根据所处的技术、业务环境,将资源分为不同科目,类似云厂商将产品分为不同服务。识别出主体科目(成本占比高如CPU、存储),进一步细化分类到集群(如CPU应用模块的集群、对象存储的桶);非主体科目一般会简化模型、不再细分集群(ROI考虑如安全产品),直接使用云账单做分摊。资源科目分类、主体科目识别带有较强的成本取舍,是FinOps的职责;资源科目的集群抽象、用量数据,由资源科目管理员提供。

分摊依赖准确的分摊比例。有了集群数据后,集群归属(按比例分摊)到预单、预单再按比例分摊到业务和主体,就完成了资源到业务的成本分摊。集群归属到预单是最复杂的环节,一方面集群数量很大、维护工作量也大;另一方面发现和纠正错误的周期较长,一般要等到超预算被考核时、由预算接口人提出;FinOps要求集群由预单独占(分摊比例100%),即便如此归属维护依然很复杂。集群归属是资源科目管理员的职责,FinOps负责监督。预单到业务通常按比例分摊,独占预单则100%,非独占则按照PV、UV、数据量等指标的占比分摊。业务通常确定的归属于一个主体,不存在1对多的情况。

分摊计算有用量费用之分、类似预算。预单粒度的分摊计算:用量 = ∑预单下的集群(集群用量 x 比例),费用 = ∑资源科目(预单用量 x 单价)。数据精度一般分为小时、天级、月级,明细数据以天级为主,低精度到高精度通过时长做归一化转换。报表产出以天级明细、月度报告为主,天级明细是集群粒度、给技术人员使用,月度报告支持预单+业务+主体等多个粒度,给技术部门负责人+业务负责人+财务+高管使用,参考如下。

page.png

page.png

管控

成本管控,以预算做为目标、以分摊做为实消(实际消费),根据是否「预算超出」的度量、由强权组织推动成本管控,这样就形成了成本管控的完整闭环,如下图。管控主要变现在控增量、修存量;控增量通过交付审批实现,超预算后审批等级会提升、直至CTO;修存量要求对应的技术团队提升资源利用率,同时优化业务实现、降低单位成本(如降低直播码率、缩短存储时长)。

page.png

成本管控是典型的「数据度量+组织驱动」的数字化运营模式。

报表

报表,目标是:以清晰易用的形态,传递信息、辅助决策。报表分类,主要是按成本场景展开,如计量计费、厂商对账、成本管控;除了展示最终结果,也会有报表展示计算过程、用于数据排障。

从报表角度回看,整个成本平台就是一个离线计算体系,如下图:

page.png

总结

在平台建设、成本运营的过程中,对成本管理平台有如下几个关键认知,

  • 价值定位:成本平台是成本数据度量平台,老板系统、辅助决策,数据必须准确全面,报表看重全局视角
    • 数据是价值底线,数据不准则平台无价值、数据少则平台价值指数递减
    • 报表是价值输出,优先匹配全局视角、避免贪多
  • 数据模型:成本数据要支持多版本,做到元数据可修改、结果可重算;数据回溯时效取决于元数据、不取决于平台功能(数仓)
    • 数据校准有两个途径,即两个独立计算的系统做数据对比(逻辑维度)、同一系统做两个周期的增量分析(时间维度)
  • 报表产品:报表产品分为趋势和分布两大类,报表页面遵循总分的组织结构(全局视角)
    • 报表遵循总分的组织结构,典型页面自上而下依次是:筛选栏、指标栏、图形栏、表格明细栏(四段式)
    • 报表分为趋势和分布两类,趋势典型如曲线图,横轴是时间、纵轴是指标,观察某类对象随时间的变化;分布报表典型如表格,行主键是维度、列是指标取值,观察固定日期的对象分布情况
  • 平台约束:以成本平台为例,数据平台只实现确定性功能、无法面面俱到,灵活协同通常交给Excel来做
    • 比如预算制定,需求多人线下协同,通过Excel能很好完成,平台做的话ROI太低
    • 成本运营时常有数据「从Excel中来、到Excel中去」,Excel导入导出功能是数据平台标配


以下是文末附加内容,偏细节、解释不系统,待完善。

预算提报

提报流程

page.png

预算要点

page.png

成本优化

成本优化,学名资源效能,遵循解决问题的工程范式: 发现问题 -> 分析问题 -> 抽象模型 -> 度量指标 -> 建设目标 -> 关键路径 -> 组织保障,如下图。

page.png

成本模型

资源成本 = ∑( 单价 * 资源用量) ∝ 单价 * ( 业务量 * 单位业务资源用量 / 资源利用率 ) ∝ 单价 * 单位业务资源用量 / 资源利用率

其中,业务量由公司业态决定,是IT成本不可决策之基础,本模型不加考虑

关键路径

提升资源效能的关键路径,主要有,

  • 降单价:集中采购,多云议价、折扣策略;新产品(如AMD、SSD),高性价比资源(如偏远IDC、过保资源),优势产品
    • 硬件每年都有更新换代,及时Follow云厂商新品、控增量治存量很重要
  • 提升资源利用率:避免浪费,容量基线管控(如双云冗余)、弹性扩缩(如ServerLess),调度策略优化,在离线混部、潮汐算力利用,程序优化
  • 降单位业务资源用量:降效果(如降低拍搜识别率、降低直播码率、降低数据时效、合理外采),控预算(主要是成本委员会机制)

组织保障

任何项目都需要组织保障,组织保障也是多方面的。这里主要有,

  • 组织机制:统一商务采购,统一内部云平台,成本委员会,FinOps
  • 加强运营:对账和财务监督(止损),常态运营、定期扫除,业务优化专项

注意事项

  • 找准方式,明确哪些是运维擅长的
  • 数据驱动,决策要有清晰的数据模型
  • 做大ROI,抓大放小
  • 既要整存量、又要控增量,整存量要沉淀为运营能力、控增量要沉淀为平台能力

大部分成员会把成本优化当做政治任务,只追求做到预算达标,一些措施会被刻意保留下来、应对将来更繁重的优化目标。这种做法,对公司显然是不利的,这其中既有打工人聪明的狡黠、也有老板激励手段的不到位。

设计取舍

在成本管理的过程中,遇到了一些有意思的问题,这些问题最终影响到了成本模型的设计。挑几个,

  • 分摊时,拆分用量、现金两个视角。用量视角给技术人员做分析,现金视角给财务人员做成本管控
    • 起初,为了跟财务对齐数字,将现金支付的总数、按用量计费的比例分摊给各业务
    • 现金支付的总数波动严重,原因有代金券、账期、合同定价等。这就造成了一个困惑:资源用量明明没有变化,但业务第二个月的分摊费用变多或变少了,甚至出现了用量减少、但分摊费用增加的情况
    • 为了解决这个问题,分摊改为使用用量计费、不再Follow现金支付的总数。在单价固定的情况下,分摊只受用量影响,而用量对技术人员更直观
    • 如果定价合理,在较长的观察周期内,用量视角、现金视角的分摊总数几乎相等,视角误差很小 —— 这已经在实践中证实
    • 最后,技术人员欢快的享受用量视角,财务人员则继续使用现金视角,双方都很满意
    • 值得注意的是,最终的成本管控标准依然是现金视角,用量视角只用做分析、过程管理
  • 预算时,保持一个视角,技术、财务都看到相同的预算数字。这个做法很容易受到财务异动项影响
    • 做预算时,往往会把类似满返代金券的异动项算进去,通常是一个负数。下文以满返为例
    • 预算定稿后,要求分摊也将满返、同步考虑进去;此时的满返,已经渗透到分摊(用量视角)
    • 满返的实施,是云厂商人工控制,通常无法和预算时间同步、数量同步,这就造成用量视角的预算意外超支或盈余,影响到用量视角的判断
    • 为了解决这个问题,我们并没有拆分出用量视角的预算,而是在分摊时”忽略”掉满返这一项:不管反满是否实施、用量分摊时都认为它实施了。这样,就避免了满返对分摊(用量视角)的影响。由此造成的用量视角总数字变化,都算到视角误差中 —— 这也确实是视角误差


Prev     Next