0 1
03 第二章: 数据治理解决了什么问题
08 第四章:传统数据治理面临的挑战
05 第三章:到底什么是数据治理
3.1 数据治理宏观政策
3.2 数据治理概念
3.3 网易对数据治理的定义
05
05
07
12 第五章:网易数据治理2.0
5.1 开发与治理一体化
5.2 数据中台架构
5.3 湖内湖外同一治理
5.4 数据治理360
5.5 基于ROI的数据资产精细化管理
5.6 数据治理的持续闭环
5.7 基于DataOps开发底座
12
16
20
22
24
24
27
第一章:数据资产
目录
29 第六章:数据治理2.0最佳落地实践
6.1 某证券公司
6.2 某电信运营商
6.3 某物流公司
29
36
40
网易数据治理白皮书
第一章 数据资产
1.1 数据分类
对于企业来说,数据的产出、应用和管理无处不在。在数字化的大浪潮下,无论是企业的管理者,还是企业的基层员工无时无刻
不在和数据打交道,如何应用好数据、更好的挖掘数据价值是每个企业都面临的问题。企业使用数据的前提是了解数据,我们将
常见的企业数据分为三大类:主数据、业务数据以及分析数据。如果将企业比作大树的话,那么主数据是树上的树干,业务数据
是树干上的枝叶,分析数据则是长在枝头的果实。
“树干”-主数据
主数据作为树干用来承载业务数据分析数据,它是有关业务实体的数据,为业
务交易和分析提供了语境信息,如雇员、客户、产品、地点等。
“树叶”-业务数据
业务数据描述企业的经营活动,是分析数据的基础。
如产品出入库、财务应收、采购、销售等。
“果实”-分析数据
分析数据用来反映企业的业绩,被用于企业的决策分析,在一个企业中,数据
的真正价值在分析数据时刻得到体现,如销售收入增长、投资回报率等。
主数据作为树干用来承载业务数据和分析数据,它是有关业务实体(如雇员、客户、产品、地点等)的数据,为业务交易和分析
提供了语境信息,因此离了主数据的业务数据和分析数据都是没有意义的,就像叶子和果实离了树干无法独自生长。业务数据用
来描述企业的经营活动,如产品出入库、财务应收、采购、销售等活动产生的数据。业务数据是分析数据的基础,分析数据来自
业务数据的加工,就像叶子通过光合作用为果实制造营养物质,没有叶子就没有果实的存在。分析数据用来反映企业的业绩,被
用于企业的决策分析,在一个企业中,数据的真正价值在分析数据时得到体现,高质量的分析数据就像成熟饱满的果实,能为企
业带来巨大价值。因此,主数据是业务数据和分析数据的基础,业务数据为分析数据的产生提供了环境,分析数据是企业数据的
价值体现。
1.2 数据资产定义
对于一个企业来说,并不是所有的数据都值得去管理、去维护甚至去分析的。数据的生成、汇聚、存储、分析、共享等阶段都会
因为数据管理的不当、数据治理手段的缺失,从而产生低质量的数据。低质量的数据不仅没有价值,它的存在还会导致错误的决
策,如同不健康的树干会影响叶子的生长,不健康的叶子无法提供足够的营养进行果实的孕育,不健康的果实无法食用一样。
因此,在企业当中数据和资产是不等价的,中国信息通信研究院联合多家企业于2021年12月发布了《数据资产管理实践白皮书
5.0》,其中将数据资产定义为“由组织(政府机构、企事业单位等)合法拥有或控制的数据资源,以电子或其他方式记录,例如
文本、图像、语音、视频、网页、数据库、传感信号等结构化或非结构化数据,可进行计量或交易,能直接或间接带来经济效益
和社会效益。”
01
网易数据治理白皮书
上述定义分别从数据主体、数据资源以及数据价值三方面对数据资产进行了描述。数据主体表明了数据是有主体的,可以来自政
府机构、企事业单位等组织。数据资源表明了数据的存在形态,以电子或其他方式记录的结构化或非结构化数据。数据价值则反
映了在组织中,数据可直接或间接带来经济效益和社会效益,是一种数据资源。
1.3 数据资产与数据治理
根据对数据资产的定义,我们了解到数据资产体现数据的价值和数据的应用。通过对数据资产盘点及价值分析,找出有价值的数
据并展示其价值和应用,也就是说并非所有的数据都是资产,只有对企业有价值的数据才被认作是数据资产。因此,这里就存在
一个关键性的问题,如何将企业数据变为资产,从而进一步实现价值变现就显得尤为关键,而数据治理是解决这个核心问题的钥
匙。
数据治理在整个数据体系中主要解决的是人与人、人与数据之间的事,在整个治理过程中体现了数据的管理以及数据价值的呈
现。如果说数据是企业信息化的原料,那么数据治理便是企业信息化的基石,数据资产则基于数据治理的数据,挖掘数据的价
值,通过数据运营、数据分析的手段,为企业赋能,助力企业的信息化建设,完成数字化转型。
02
网易数据治理白皮书
第二章 数据治理解决了什么问题?
网易作为一家互联网公司,很早就在生产活动中应用数据的分析结果,助力业务的增长。随着业务规模的扩大,如网易云音乐、
网易有道、网易新闻、网易严选等多个业务线的孵化,同时也诞生了大量的集群,内部对于集群统一管理的呼声也日益变
高。2018年以前,网易还没有将数仓的建设提升到组织架构的层面去规划,导致各个业务部门的不同团队都有一些零散的数据
开发和分析人员承载本团队内的数据分析需求,这样的一个组织架构导致的结果就是很多零散分裂的小数仓存在,烟囱式的开发
对业务带来了严重的影响。到了2018年,因业务规模的快速扩大,数据量的急速增长,相应的数据问题终于爆发,例如数据使
用率低、数据经常违反常识、数据成本指数增长导致投入产出比低、数据安全风险日益突出等等,数据治理迫在眉睫。我们将上
述问题进行了归类,总结出了四个数据使用过程中的问题,分别是找不到、看不懂、信不过、管不住。
找不到
除了数据量的不断增大,数据的发现效率成为使用数据的门槛之一。在网易内部,严选的业务线约有8万张表,音乐的业务线约
有4万张表,对于数据分析而言,越靠近应用层,越会存在很多大的宽表,一个表有上百个字段是一个非常正常的事情。对于数
据使用者而言,从几万张表中找到自己需要的数据,犹如大海捞针,谁也不清楚系统中到底有哪些数据,也不知道如何去快速准
确的找到这个数据。对数据地图的用户进行分析,发现居然有90%以上是IT人员,而原本作为产品目标用户的业务人员却几乎
无人使用。
看不懂
即便业务人员找到数据,我们发现,他也很难看懂数据。据统计,高达78%的表都存在元数据缺失,尤其是管理元数据和业务
元数,而业务元数据和管理元数据,是业务人员了解数据业务含义最重要的信息。通常来讲,技术元数据的完整度一般都是最高
的,可以通过系统化的采集获得;而管理元数据和业务元数据,与业务相关性较高,是需要业务配合来补充完善的,因此相对
的,其缺失度更高。
信不过
质量是数据的生命线,没有质量保障的数据,不仅没有价值,还会产生错误的决策。我们在严选就曾经出现过,因为开发修改了
一个上游任务的数据计算逻辑,影响了下游一张涉及资损的表的数据正确产出,结果导致红包超发,产生了几十万的资损。这些
血淋淋的教训反复告诉我们,保障质量对于业务团队对数据的信任有多重要。
数据违反常识是数据质量问题的一种表现,开发人员往往不理解数据背后的含义而无法从开发结果上判断数据是否满足业务方要
求,导致数据质量的问题最后都在业务方使用过程中暴露出来,久而久之业务方对于开发团队的数据不再信任。我们曾对popo
群(网易内部工作通讯工具)里面每日反馈的问题进行统计,平均下来,每周就有10个数据质量问题被反馈,“数据违反常
识”是当时我们听到的最多的一句业务部门的吐槽。更为严重的是,这里面90%的问题,都是数据使用方先于数据开发方发现
的,对于我们数据团队来说非常的被动,往往出现问题我们自己都不知道。
管不住
企业业务的高速发展,导致业务上的数据量不断增加,相应的数据的成本也呈指数级增长。而在企业众多成本当中,数据的成本往
往是最容易被忽略的。事实上,数据的成本不仅仅是钱的问题,还是资源没有最大化使用的问题。我们曾对内部某事业部的数据进
行分析,发现78.39%的表占据了21.63%的存储空间,这些数据都是无人访问的,造成了大量的计算资源和开发资源的浪费。
03
网易数据治理白皮书
另外,资源的滥用还会影响集群的稳定性,据内部的记录,每个月都有5次事故跟资源滥用有关,例如一个5层嵌套的大SQL瞬
间把集群打挂等等。公共资源的管理不当、缺少科学的数据资产沉淀方式,最终导致存在大量无人问津的数据,数据成本居高不
下。
随着数据量的不断增大,除了资源管理上的问题,企业还面临着因为使用数据的人越来越多而导致的数据安全问题。企业既想要
员工多用数据,又要确保不同密级的数据被对的人所使用。不合理的数据权限及功能权限的分配会导致数据误删、数据泄密的问
题经常发生,对于企业来说是无法接受的。此外,复杂的权限设置以及频繁的授权申请都会对数据的使用效率造成影响。一个业
务运营,想要使用这张表,他首先要能够找到这张表的负责人,然后联系对其授权。这个过程往往要花费一天的时间。同时,作
为授权方,数据负责人往往也不清楚,到底该不该把权限授予申请人,这就造成一个很尴尬的情况,就是权限流于形式,只要你
能找到表的负责人,就可以获得这个表的访问权限。
04
网易数据治理白皮书
第三章 到底什么是数据治理?
3.1 数据治理宏观政策
目前,全世界已经进入数字经济时代,数字经济已经成为支撑当前和未来世界经济发展的重要动力。自十八大以来,党中央就高
度重视发展数字经济,并将其上升为国家战略。19年11月首次将数据列为生产要素,20年4月在《中共中央国务院关于构建更加
完善的要素市场化配置体制机制的意见》中正式提出将数据作为与土地、劳动力、资本、技术等传统要素并列的第五大生产要
素,数据要素是实施国家大数据战略、加快建设数字中国、深化数字经济化发展的核心引擎。
党的二十大报告中明确指出“坚持把发展经济的着力点放在实体经济上,推进新型工业化,加快建设制造强国、质量强国、航天
强国、交通强国、网络强国、数字中国。”在此背景下,数字技术作为企业数字化转型的核心动力,赋能企业帮助企业完成数字
化转型,提升企业竞争力开辟第二条增长曲线。而企业数字化转型过程中需要数据先行,以数据治理为肯綮,通过对数据进行规
范化、标准化以及流程化的治理,提炼企业数据资产,激发数据要素潜能,实现企业数据资产化、价值化、智能化,从而助力企
业完成数字化转型。因此,数据治理是企业在数字化转型过程中关键而又绕不开的一个环节。
3.2 数据治理的概念
那么到底什么是数据治理?数据治理的内容又包括哪些?这些都是企业在准备开始进行数据治理之前需要考虑清楚的问题。此
外,企业在进行数据治理之时也经常容易走入误区,比如在项目初期就希望进行大而全的数据治理,往往因为缺失重点而导致事
倍功半,又比如知道元数据、数据标准、数据质量在数据治理过程中的重要性,但是在实际交付过程中却发现难落地等等。所以
在做数据治理之前,首先要了解数据治理,正所谓以汤止沸,沸乃不止,诚知其本,则去火而已矣。
DAMA
国际数据管理协会(DAMA国际)在其《DAMA数据管理知识体
系指南(DAMA-DMBOK2)》一书中将数据治理进行了定
义,即在数据资产管理过程中行使权力和管控的过程,称为数据
治理。并将数据治理作为数据管理十大知识领域的中心,负责知
识领域的平衡和一致性。DAMA对于数据治理的定义显得较为抽
象,但实际上去了解其中对于数据治理主要工作内容的定义,不
难发现它是从数据战略,数据制度,数据架构、建模和设计等标
准,以及数据监管合规、数据资产估值等维度进行描述。同
时,DAMA-DMBOK2一书中还给出了数据治理实施和度量指
标的相关指导和建议。可以说,DAMA从数据治理的定义、活
动、工具和方法、实施指南以及度量指标给出了比较全面的解
释,但是距离企业可落地的数据治理还是距离较远,更像是纲领
性的介绍,因此对于如何进行数据标准的制定以及如何进行数据
资产的评估都缺少具体的描述。
05
网易数据治理白皮书
DCMM
DCMM(Data Management Capability Maturity
Assessment Model,数据管理能力成熟度评估模型)是我国
首个数据管理领域国家标准。数据管理能力成熟度评估模型给出
了数据管理能力成熟度评估模型以及相应的成熟度等级,定义了
数据战略、数据治理、数据架构、数据应用、数据安全、数据质
量 、 数 据 标 准 和 数 据 生 存 周 期 等 8 个 能 力 域 。 相 较 于
DAMA,DCMM将数据标准作为数据管理中的独立一项内容,
进行了明确的定义和能力等级说明。此外,还将数据开发、数据
应用(包含数据服务、数据分析)等内容进行了相应定义和规范
化说明。但是从整体上看,DCMM并没有提及数据资产相关的
内容,缺少数据资产的评估。
数据资产管理实践白皮书
《数据资产管理实践白皮书》是大数据技术标准推进委员会、中国信通院云计算与大数据研究所联合业内知名企业共同编写的关
于数据资产管理实践的白皮书。该白皮书聚焦于数据资产的管理,有别于DAMA和DCMM,更加强调数据的资产属性以及价
值,给出了数据价值的广义定义以及数据价值的评估方法。
06
网易数据治理白皮书
数据标准管理实践
《数据标准管理实践白皮书》也是由大数据技术标准推进委员会、中国信通院云计算与大数据研究所联合业内知名企业共同编写
的关于数据标准管理实践的白皮书。该白皮书聚焦于数据标准,提出了数据标准是数据资产管理多个活动职能的核心要素,主要
体现在数据质量管理、主数据管理、元数据管理、数据模型管理和数据安全管理几个方面。
3.3 网易对数据治理的定义
网易认为,数据治理是对企业全域数据资产实施有效管理的活动,根据数据治理的对象不同,数据治理可以分为面向业务系统的
数据治理和面向分析系统的数据治理。主数据管理就是典型的面向业务系统的数据治理,它核心要解决的问题是跨业务、跨系统
和跨流程的企业核心数据的一致性、正确性和权威性的问题。面向分析系统的数据治理,主要解决的是数据分析过程中,指标数
据计算的口径一致性,数据质量,标准规范、成本优化以及安全管控问题。因为数据本身还是来源于业务系统,所以面向业务的
数据治理是面向分析的数据治理的前提,如果业务系统的数据治理没做好,分析系统的数据治理就很难从根本上解决。
数据中台其实跟传统的数据治理的概念并不相同,但是数据中台的核心思想是构建统一的指标管理体系和企业级公共共享的数据
模型层,打破烟囱式的数据架构,本质还是面向分析系统的数据管理,所以从数据治理是企业所有数据管理活动的定义来看,也
可以将数据中台的构建方法纳入面向分析系统的数据治理。
07
网易数据治理白皮书
第四章 传统数据治理面临的挑战
传统数据治理包括三大件,分别是数据标准,元数据管理和数据质量。数据治理的一般流程是从制定数据标准开始的,简称定
标。然后通过元数据管理的采集、注册、扫描以及发布完成数据标准和数据模型之间的连接,这个过程称为落标。最后通过数据
标准关联的数据质量稽核规则,对数据模型进行稽查,发现质量问题形成质量报告,推动相应的业务部门进行整改,提升数据质
量。
对于传统数据治理来说,其更加强调对业务系统存量数据的治理,此外,对于数据长效治理体制的建设也不够重视,所以传统数
据治理在企业数据管理实践中也遇到了一些新的问题。
4.1 开发与治理脱节
传统数据治理面临的第一个挑战便是开发与治理的脱节。由于传统数据治理更加关注存量数据的治理,而忽视了新增数据的长效
治理,导致企业需要通过不断的数据治理项目维持数据治理的效果。但是,对于企业来说,相比于存量数据其增量数据价值更
高、也更为重要。此外,传统的数据治理是一个反向治理的过程,并不会融入到数据生产的整个过程当中,与数据开发、建模、
运维、安全等环节都存在脱节现象,对于企业来说进行传统的数据治理就需要对其现有的系统和流程进行改造,因此必然面对高
昂的成本。基于上述情况,我们需要将数据治理的活动前置,从数据的生产环节加入数据治理的活动。
数据质量与数据开发脱节
如何确保数据开发的结果符合业务逻辑并能被业务方所使用,就需要通过质量稽核规则对开发结果进行监控。但是,我们发现在
实际开发过程中质量稽核规则的覆盖率只有10%。其次,由于不同的开发人员对数据的了解程度以及业务的熟悉程度不同,对
于相同数据项的质量稽核规则设置也不尽相同,在早期的网易内部有70%的相同数据项,其稽核规则存在不一致,阈值设置也
不一致。这就导致了数据开发的结果大多不符合业务方的预期,长此以往,业务方不再相信数据。究其原因,首先是质量稽核规
则缺少统一的标准,其次开发人员对于数据质量的重视程度不够,导致数据质量和数据开发严重脱节。
数据标准与数据建模脱节
数据标准一般会包括标准规划、标准制定、标准发布、标准执行、标准检查等流程。一个企业会根据自身的情况结合国家标准、
行业标准制定自身企业的数据标准。但是标准制定之后如何让开发人员贯彻执行却是大多数企业面临的问题。标准和数据建模的
脱节,就会导致开发出来的表的命名无法统一、缺少规范,相同字段的名称也会因为开发人员开发习惯的不同而出现不同的命名
方式,从而导致数据的理解成本和管理成本上升。
元数据与数据开发脱节
在数据开发过程中,任务之间往往存在依赖关系,下游任务运行依赖于上游任务的实例产出,因此,需要将有关联的上下游任务
网易数据治理白皮书
最新推荐文章于 2024-10-31 14:35:29 发布
本文围绕数据治理展开,先介绍企业数据分类、资产定义及与治理的关系,指出数据治理能解决找不到、看不懂、信不过、管不住等问题。阐述了数据治理的宏观政策、概念,分析传统治理挑战,介绍网易数据治理2.0,还给出证券公司、电信运营商、物流公司的落地实践案例。

最低0.47元/天 解锁文章
1033

被折叠的 条评论
为什么被折叠?



