
数据治理
文章平均质量分 90
数据治理是一个通过一系列信息相关的过程来实现决策权和职责分工的系统,这些过程按照达成共识的模型来执行,该模型描述了谁(Who)能根据什么信息,在什么时间(When)和情况(Where)下,用什么方法(How),采取什么行动(What)。数据治理的最终目标是提升数据的价值,数据治理非常必要,是企业实
Freedom3568
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
数据治理:为什么不见BI作关联分析
物都是普遍联系的,很难有一个独立的事物不和其它发生关联,数据表也一样,很多有业务意义的查询都会涉及多个数据表的关联数据分析以及 BI 类软件通常会提供自助查询功能,有些软件还能支持关联查询,但实际使用的大多数还是单表的,也就是我们常说的宽表,而提供的自助关联查询功能则很少被业务人员使用,这是几乎所有 BI 类软件的软肋,无论大牌小众,一试一个准。...原创 2022-08-30 11:07:05 · 261 阅读 · 0 评论 -
数据治理:携程度假的数据治理实践
携程度假包含跟团游、自由行、玩乐、门票、用车等十多条业务线,业务涵盖线上预定到线下门店,业务线之间的差异性大,业务系统之间的复杂度高。为了满足业务的快速发展与创新,前期数据团队都是以小数仓的方式来快速响应需求。经历了多年的发展演变,主要面临以下几个问题:(1) 各业务线端到端重复建设浪费资源,人力配置不均衡,团队效率低;(2) 大量重复建设的模型、报表及应用,需求场景不清晰,历史包袱重;(3) 维度不统一,数据整合难度大;指标口径不一致,数据理解成本高;...原创 2022-08-15 21:29:28 · 708 阅读 · 0 评论 -
数据治理: 数据资产管理篇
随着大数据时代的到来,人们已经认识到数据是一种无形的宝贵资产,谷歌、Facebook、阿里巴巴、腾讯等企业市值高达数千亿美元,不仅在于其独特的商业模式和市场垄断地位,更多的估值是给予了其拥有的海量用户数据里所蕴含的巨大价值。对于数据的拥有者和管理者来说,通过对数据的合理管理和有效应用,能盘活并充分释放数据的巨大价值。但如果数据的拥有者和管理者缺乏对数据的有效管理,数据就用不起来,或者即便用起来也用不好,在这种情况下,堆积如山的无序数据给企业带来的是高额的成本,数据成为一项棘手的“负债”。从这个角度来说,数据原创 2022-07-07 11:56:36 · 484 阅读 · 0 评论 -
数据中台:资产管理平台建设方案概述
数据资产管理平台完成数据资产管理的两大核心工作,分别是数据治理工作和数据运营工作:数据治理:数据资产管理平台将业务数据化,并开展数据标准化;数据资产管理平台清理垃圾数据,提升数据质量;数据资产管理平台理清数据关联关系。运营数据:数据资产管理平台汇聚全局数据,明确数据分布;数据资产管理平台提供数据服务,共享数据;数据资产管理平台评估数据资产,实现数据价值增值。数据资产管理工具是数据资产管理工作落地的重要手段,因大数据技术栈开源软件的缺失,给各个软件厂商提供了差异化竞争的良好条件。然而作为数据资产管理工具的集成原创 2022-07-07 11:45:29 · 654 阅读 · 0 评论 -
数据治理:元数据管理篇
如果我说:元数据(Meta Data),就是描述数据的数据。简单点,其实元数据相当于数据的户口本。户口本是什么?它除了包含个人姓名、年龄、性别、身份证号码等各种基本描述信息外,还有这个人和家人的血缘关系,比如说父子,兄妹等等。所有的这些信息加起来,构成对这个人的全面描述,也可以称之为这个人的元数据。同样的,如果我们要描述清楚一个实际的数据,以某张表为例,我们需要知道表名、表别名、表的所有者、数据存储的物理位置、主键、索引、表中有哪些字段、这张表与其他表之间的关系等等。所有的这些信息加起来,就是这张表的元数据原创 2022-07-07 11:38:33 · 458 阅读 · 0 评论 -
数据治理:数据标准管理概述
数据标准这个词,最早是在金融行业,特别是银行业的数据治理中开始使用的。数据标准工作一直是数据治理中的重要基础性内容。但是对于数据标准,不同的人却有不同的看法:有人认为数据标准极其重要,只要制定好了数据标准,所有数据相关的工作依标进行,数据治理大部分目标就水到渠成了。也有人认为数据标准几乎没什么用,做了大量的梳理,建设了一整套全面的标准,最后还不是被束之高阁,被人遗忘,几乎没有发挥任何作用。首先亮明作者的观点:这两种看法都是不对的,至少是片面的。实际上,数据标准工作是一项复杂的,涉及面广的,系统性的,长期性的原创 2022-07-07 11:29:50 · 383 阅读 · 0 评论 -
数据治理:资产地图概述
讲好什么是数据地图,还有从数据治理说起,很多公司的数据治理搞的就仅仅是看了几篇网上了理论文章,就开干,最终不了了之。为什么?其中一个很重要的原因是没有做好数据地图。开始打仗了,才发现自己连一个作战地图都没有,怎么调兵遣将?数据治理同事做了大量的数据模型和指标,但是数据使用人员却不知道如何快速找到自己想要的数据模型和指标。上面背景已经说了,数据地图至少应该解决两个问题:如何寻找数据和如何用好数据。企业级的数据仓库会有上千个数据模型,对于分析师来说,怎么找到自己要用的模型呢?比如分析师在找销量数据时,可能会有很原创 2022-07-07 11:09:14 · 1803 阅读 · 0 评论 -
数据治理:数据质量篇
本文将讲解数据质量管理的目标,质量问题产生的根源,数据质量的评估,数据质量管理流程。数据质量管理主要解决「数据质量现状如何,谁来改进,如何提高,怎样考核」的问题。因为最开始的关系型数据库时代,做数据治理最主要的目的,就是为了提升数据质量,让报表、分析、应用更加准确。时至今日,虽然数据治理的范畴扩大了很多,我们开始讲数据资产管理、知识图谱、自动化的数据治理等等概念,但是提升数据的质量,依然是数据治理最重要的目标之一。为什么数据质量问题如此重要?因为数据要能发挥其价值,关键在于其数据的质量的高低,高质量的数据是原创 2022-07-05 15:03:54 · 396 阅读 · 0 评论 -
数据治理:元数据管理篇
这篇文章主要讲数据治理的基础和核心之一:元数据。从关于元数据的三个概念谈起,讲到元数据的分布范围和如何获取元数据,最后从几个常见的应用出发,谈谈元数据的一些实际应用场景。元数据是一个相当抽象、不易理解的概念,所以第一个章节,我们先把元数据是什么搞懂。这一章节共提出三个概念。这是元数据的标准定义,但这么说有些抽象,技术同学能听懂,倘若听众缺乏相应的技术背景,可能当场就懵逼了。产生这个问题的根源其实是一个知识的诅咒:我们知道某件事情,向不了解的人描述时却很难讲清楚。要破解这个诅咒,我们不妨借用一个比喻来描述原创 2022-07-05 11:58:25 · 324 阅读 · 0 评论 -
数据治理:误区梳理篇
大数据时代,数据成为社会和组织的宝贵资产,像工业时代的石油和电力一样驱动万物,然而如果石油的杂质太多,电流的电压不稳,数据的价值岂不是大打折扣,甚至根本不可用不敢用,因此,数据治理是大数据时代我们用好海量数据的必然选择。但大家都知道,数据治理是一项长期而繁杂的工作,可以说是大数据领域中的脏活累活,很多时候数据治理厂商做了很多工作,客户却认为没有看到什么成果。大部分数据治理咨询项目都能交上一份让客户足够满意的答卷,但是当把咨询成果落地到实处的时候,因为种种原因,很可能是另一番截然不同的风景。如何避免这种情况发原创 2022-07-05 11:48:58 · 252 阅读 · 0 评论 -
数据治理:微服务架构下的数据治理
前段时间,我的一个小伙伴跳槽到了某大型国有企业,刚到公司不久,老板给交给他一个重要项目——公司的数据中台规划。老板交代:“要搞一个数据中台架构,涵盖数据资产管理、数据治理、数据分析等,同时这个数据中台,要体现去中心化,甚至无中心化的理念”。我这哥们儿有过多年的数仓架构经验,并参考了业界主流的数据中台架构,很快就“照猫画虎”的搞了一个数据中台架构图出来。当他拿走自己的“得意之作”,找老板汇报的时候,没想到老板只看了一眼,就劈头盖脸骂了他一顿,主要原因就是没有体现“去中心化”的思想。小伙伴儿向我抱怨:“数据中台原创 2022-07-05 11:19:34 · 329 阅读 · 0 评论 -
数据治理:主数据的3特征、4超越和3二八原则
主数据(Master Data)是具有共享性的基础数据,可以在企业内跨越各个业务部门被重复使用的,因此通常长期存在且应用于多个系统。由于主数据是企业基准数据,数据来源单一、准确、权威,具有较高的业务价值,因此是企业执行业务操作和决策分析的数据标准。...原创 2022-07-05 10:40:57 · 459 阅读 · 0 评论 -
数据可视化:Echarts和Tableau简介
由于工作里常常要做图表,Excel没法满足复杂场景,所以Echarts和Tableau成为了我最得力的两个助手。作为声名远扬的可视化工具,Echarts和Tableau,它们的性质不太一样。Echarts是一个纯JavaScript 的开源可视化图表库,使用者只需要引用封装好的JS,就可以展示出绚丽的图表。就在前不久,Echarts成为了Apache的顶级项目。Apache顶级项目的家族成员有哪些呢?Mavan、Hadoop、Spark、Flink…都是软件领域的顶流Tableau是一个BI工具,商业化的P原创 2022-07-05 10:19:26 · 641 阅读 · 0 评论 -
数据治理:元数据管理实施(第四篇)
主数据项目建设从方法上,分为以下四部,简单归结为:“数据调查、建立体系、数据接入、数据运营”!数据调查需要全面调研和了解企业的数据管理现状,以便做出客观切实的数据管理评估!数据资源普查的方法常用的有两种,一种是自顶向下的梳理和调研,另一种是自底向上的梳理和调研。自顶向下的调研一般会用到IRP(信息资源规划)和BPM(业务流程管理)两个方法。这里重点介绍一下IRP,信息资源规划(Information Resource Planning ,简称IRP),是指对所在单位信息的采集、处理、传输和使用的全面规划。其原创 2022-06-30 11:01:19 · 277 阅读 · 0 评论 -
数据治理:数据治理框架(第一篇)
维基百科:数据治理对于确保数据的准确、适度分享和保护是至关重要的。有效的数据治理计划会通过改进决策、缩减成本、降低风险和提高安全合规等方式,将价值回馈于业务,并最终体现为增加收入和利润。笔者认为:所有为提高数据质量而展开的业务、技术和管理活动都属于数据治理范畴。数据治理的目的就是通过有效的数据资源控制手段,进行数据的控制,以提升数据质量进而提升数据变现的能力。在我国,各行业的信息化发展和建设水平并不均衡,甚至有的行业是刚刚起步。但是,不论是金融行业、通讯行业、地产行业、传统制造业以及农业,其信息化的发展基本原创 2022-06-30 10:32:40 · 812 阅读 · 0 评论 -
数据治理:数据治理管理(第五篇)
“数据质量管理是对数据从计划、获取、存储、共享、维护、应用、消亡生命周期的每个阶段里可能引发的数据质量问题,进行识别、度量、监控、预警等一系列管理活动,并通过改善和提高组织的管理水平使得数据质量获得进一步提高。数据质量管理的终极目标是通过可靠的数据提升数据在使用中的价值,并最终为企业赢得经济效益。”——以上内容摘自百度百科。笔者观点:“数据质量管理不单纯是一个概念,也不单纯是一项技术、也不单纯是一个系统,更不单纯是一套管理流程,数据质量管理是一个集方法论、技术、业务和管理为一体的解决方案。通过有效的数据质量原创 2022-06-30 10:19:00 · 290 阅读 · 0 评论 -
数据治理:元数据管理(第二篇)
元数据管理是对企业涉及的业务元数据、技术元数据、管理元数据进行盘点、集成和管理,按照科学、有效的机制对元数据进行管理,并面向开发人员、最终用户提供元数据服务,以满足用户的业务需求,对企业业务系统和数据分析平台的开发、维护过程提供支持。元数据管理是企业数据治理的基础。...原创 2022-06-28 23:51:31 · 691 阅读 · 0 评论 -
数据治理:数据标准管理(第三篇)
提到“标准”二字,我们第一时间能够想到的就是一系列的标准化文档,例如:产品设计标准、生产标准、质量检验标准、库房管理标准、安全环保标准、物流配送标准等,这些标准有国际标准、国家标准、行业标准、企业标准等。而我们所说的数据标准却不单单是指与数据相关的标准文件,数据标准是一个从业务、技术、管理三方面达成一致的规范化体系。...原创 2022-06-28 23:39:04 · 367 阅读 · 0 评论 -
数据可视化:数据可视化的意义
数据可视化的价值是什么?很多会说,让数据以更加直观的方式呈现,通过简单的交互动作,快速获取目标数据,提高数据获取和分析的效率。数据可视化首先要解决数据的问题,没有数据的可视化是无源之水。如果数据已经可以通过SQL或者邮件、excel报表等不同方式获取到了,可视化的优先级就没那么高了。在开发资源稀缺时,往往可视化页面的需求优先级会降低,连数据都没有的那部分需求才是高优解决的。数据是基本需求,可视化是温饱需求。在大数据发展初期,数据产品体系不健全,业务人员数据获取重度依赖数据开发人员,紧急需求需要各种刷脸或者找原创 2022-06-28 22:58:19 · 1380 阅读 · 0 评论 -
数据治理:元数据管理篇之Altas
Atlas 是一个可伸缩且功能丰富的数据管理系统,深度集成了 Hadoop 大数据组件。简单理解就是一个跟 Hadoop 关系紧密的,可以用来做元数据管理的一个系统,整个结构 图如下所示官网: https://www.cloudera.com/products/open-source/apache-hadoop/apache-atlas.htmlhttp://atlas.apache.org/#/为组织提供开放式元数据管理和治理功能,用以构建数据资产目录,对这些资产进行分类和管理,并未数据分析和数据治理原创 2021-04-14 15:21:19 · 4446 阅读 · 0 评论 -
数据治理:数据治理在数据中台下的解决方案
当前很多传统企业的数据中台还处于初步建设阶段,但伴随着移动互联网的逐步发展、线上和线下的融合,数据服务的形式、场景越来越多,业务维度会变得更加复杂,数据中台的建设也会面临更多的挑战,主要表现如下:数据缺乏标准,难以有效集成与使用数据中台需要集成内部和外部各个系统的数据,只有建立一致性的数据规范,通过统一的模型容器,才能实现数据的有效整合,避免数据误入“形合神离”的窘境。数据可信度偏低,导致数据不可用、不敢用数据中台的数据来源为内部的系统,其数据完整性、时效性、真实性都有待评估和度量,只有在数据中台建立完原创 2022-06-28 11:27:20 · 312 阅读 · 0 评论 -
数据治理: 数据治理中的元数据
一、什么是元数据元数据,是描述数据的数据。这个定义确实再准确不过了,但并不容易被理解。假如我们想找一本书,该怎么找?当然会通过书名、作者名、出版社等信息。如果不知道书名,还可以通过类别、简介等去查询自己想要的书籍。为什么这样的方式可以帮我们快速找到自己想要的书呢?因为“书名”、“作者”、“出版社”、“类别”、“简介”都是描述这本书的信息。像“书名”、“作者”等对信息的描述,就是元数据。如果没有书名、作者、出版社、类别、简介等元数据,我们想根据内容寻找一本书籍,就会变得极其困难。在大数据时代,数据即资产原创 2022-04-17 18:36:16 · 1904 阅读 · 0 评论 -
数据治理:数据治理概述
数据治理是什么?我们先来看一下国际数据管理协会给出的定义:数据治理是对数据资产管理行使权力和控制的活动集合。似乎有点抽象,没关系,我们按照语文老师常说的字词拆解来理解这句话吧。首先是"对数据资产",这说明数据治理的前提和对象,是数据资产。其次数据治理是对数据资产"进行控制、管理、行使权力",说明有了数据资产还不够,如何有效的经营它、管理它、控制它也是要解决的关键点。数据资产是什么呢?我们类比一下个人的资产,你自己的资产就是你所有的钱或者说值钱的东西的一个集合,但是这个钱肯定要是真钱,不能是假钞。那么数据资产原创 2022-06-22 19:30:27 · 560 阅读 · 0 评论 -
数据仓库:金融/银行业主题层划分方案
Teradata公司作为全球最大的专注于大数据分析、数据仓库和整合营销管理解决方案的供应商,并提出一种先进的FS-LDM模型(Financial Services Logcial Data Model),把银行约80%的业务数据囊括在该模型中。Teradata FS-LDM 是一个成熟产品,在一个集成的模型内支持保险、银行及证券,包含十大主题:当事人、产品、协议、事件、资产、财务、机构、地域、营销、渠道。具体划分如下图所示:IBM 公司作为数据仓库和数据分析的“元老级”企业,为了对抗 Teradata 公原创 2022-06-24 16:15:23 · 3747 阅读 · 0 评论 -
数据治理:数据治理的七把利剑
正所谓“工欲善其事,必先利其器!”,一套好的数据治理工具,能让企业的数据治理工作事半功倍。数据治理本质是盘点数据资产、治理数据质量,实施数据全生命周期的管理,根据不同的项目特点,会用到不同的技术或工具。一般来说,数据治理产品或工具主要包含以下组件:数据模型管理、元数据管理、数据质量管理、数据标准管理、主数据管理、数据安全管理、数据服务平台。数据治理产品中的七个工具或组件,都各有自己的特点和使命,在企业的数据治理中都有着不同的功能侧重,但是解决问题的目标是一致的——提升数据质量。这让我不由联想到的是那部经典的原创 2022-06-27 15:09:05 · 315 阅读 · 0 评论 -
数据治理:数据治理的建设思路以及落地经验
数据治理经过多年的沉淀,积累了比较完善的理论体系;但是落地时候,治理范围如何聚焦,数据产品如何定位、具象设计和推广运营,不同公司有着不同的设计实现。本文会结合贝壳找房近两年的业务数据中心建设经验,从产品视角来谈谈数据治理的问题。.........原创 2022-06-27 22:25:54 · 582 阅读 · 0 评论 -
数据治理:埋点的实践
首先我们定义一下埋点是什么?埋点主要是描述用户在 APP 内触发的一系列行为,包括点击、侧滑等。基于这些行为,我们可以进行行为分析、个性化推荐、精准营销等很多事情。埋点主要描述的是哪些数据?Who:谁操作的数据When:什么时候操作的数据Where:在哪些页面、模块的数据How:用户如何操作的What:有哪些附加信息因为本文介绍的是埋点治理,所以这里再介绍一下什么是数据治理。数据治理是指在数据的生命周期内,对其进行管理的原则性方法,其目标是为了确保数据的安全、及时、准确、可用和易用。数据总是会变原创 2021-11-30 18:03:55 · 687 阅读 · 0 评论