火山引擎 DataLeap:揭秘字节跳动业务背后的分布式数据治理思路

动手点关注

f969849931b6030e85c9adbc825af280.gif

干货不迷路


导读:经过十多年的发展, 数据治理 在传统行业以及新兴互联网公司都已经产生落地实践。字节跳动也在探索一种分布式的数据治理方式。本篇内容来源于 火山引擎 超话数据直播活动的回顾,将从以下四个部分展开分享:

  • 字节的挑战与实践

  • 数据治理的发展与分布式

  • 分布式自治架构

  • 分布式自治核心能力


字节的挑战与实践

首先来看一个问题:“一家公司,数据体系要怎么搭建?”

  • 方案一:整体规划,系统架构驱动

  • 方案二:问题出发,业务价值驱动

在字节跳动,我们选择的是方案二,即从业务遇到的问题出发,重视落地结果与业务过程,去解决实际的治理问题。

基于这个理念,在数据治理过程中,字节跳动也面临以下三个挑战与机遇:

业务特点:业务发展快、场景丰富、数据量大且形态各异。 业务的线上服务及创新,都对数据有较强的依赖,核心业务数据延迟,质量问题将直接影响业务表现及发展。

组织特点:扁平化的组织模式,分布式的组织管理。 无行政手段或强组织约束,也无全局治理委员会,且数据从采集到应用全部的生产流程,没有全局规范,业务团队需要自主制定策略并落地。

文化特点: OKR 拆解与对齐文化,业务团队有充足的目标定义与拆解权限,且任何人都可能有动机、有角色、甚至有权限去进行数据治理,导致数据治理的业务流程复杂

字节数据治理演进阶段

字节数据治理演进阶段分为 6 个阶段:

业务第一原则: 坚持业务第一原则,解决业务实际遇到的治理痛点

优先稳定建设: 优先解决交付稳定,保障数据链路与产出稳定,减少交付延迟

保障数据质量: 核心链路质量管控,配置强质量规则,自动熔断,避免全链路数据污染;加强事前检查,从源头加强质量控制;完善事后评估,为每一张表建立健康档案,持续改进。

关注数据安全: 冗余权限识别,消除授权风险;数据分类分级,风险定义与多策略控制,减少安全风险

重视成本优化: 基于多种规则的与完备的治理元数仓,提供低门槛的治理产品能力,快速优化存储

提高员工幸福感: 在帮助业务完成数据治理的后,还需要考虑团队的负载压力,报警治理,降低员工起夜率;归因分析,快速排查修复故障。

在这里,再介绍字节特色的“0987”量化数据服务标准。这四个数字分别指的是:稳定性 SLA 核心指标要达到 0 个事故,需求满足率要达到 90%,数仓构建覆盖 80% 的分析需求,同时用户满意度达到 70%。按照这个高标准来要求自己,同时这也是一种自监管的机制,能够有效的防止自嗨,脱离业务需求和价值。

字节的部分场景实践

下面通过两个例子为大家介绍数据治理在字节的场景实践。

案例一:

  • 问题:字节跳动内部 2019 年到 2020 年间,双月内事故数量较多,对业务造成一定影响,且收敛困难,每天都有告警、起夜、对正常开发进度造成影响。

  • 解决方案:采用了分布式用户自治的 SLA 治理,通过数据分级保障目标管理,在各业务内部进行【拉齐链路-数据分级-广泛共识-系统管理】的行动闭环,系统化保障目标传递和落地。

  • 效果:截止 2020 年中,事故以每双月 30% 环比下降,在 1 年内达到稳定性问题彻底收敛。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值