
数仓建设+数据治理
数仓建设
^果然好^
这个作者很懒,什么都没留下…
展开
-
ODS-> DWD-> DWS->DWT-> ADS实践
参考:https://www.cnblogs.com/shengyang17/p/10545198.html?utm_source=tuicool原创 2021-07-06 11:22:45 · 1370 阅读 · 0 评论 -
数据中台-数据治理篇(读书笔记)
第一讲第二讲原创 2020-08-18 16:26:23 · 1662 阅读 · 0 评论 -
数据中台(读书笔记)-6-数据服务
数据服务就是把数据变为一种服务能力,通过数据服务让数据参与到业务之中,激活整个数据中台,这也是数据中台的价值所在。数据服务是对数据进行计算逻辑的封装(过滤条件、多维分析和算法推理等计算逻辑),生成API,上层数据应用可以对接数据服务API,让数据快速的应用到业务场景中。按照数据和计算逻辑的封装不同,数据服务可以分为以下三类:数据基础服务:面向的对象是物理表数据,主要场景有数据查询、多维分析等,通过自定义SQL的方式实现数据中台全域物理表的指标获取和分析。 标签画像服务:面向的对象是标签数据原创 2020-06-28 18:00:46 · 1773 阅读 · 0 评论 -
数据中台(读书笔记)-5-资产管理
数据资产三个特征(1)企业拥有和控制(2)能带来未来经济效益(3)数据资源数据治理略..................数据资产管理职能(1)数据标准概念数据标准可以分为以下几类:业务术语标准:业务术语。 参考数据和主数据标准:可以理解为数据字典。 数据元标准:由三部分组成对象类、特性、表示值域和数据类型的组合。 指标数据标准:衡量一个目标和事务的数据。如人均利用率、季度离职率。(2)数据模型管理数据模型是指对现实世界数据特征的抽象,用于描述一组数据的概念和定原创 2020-06-23 21:12:43 · 858 阅读 · 0 评论 -
数据中台(读书笔记)-4-体系建设
建设过程种需要一个体系化的数据层次架构,这个架构定义了数据分层和每一层的模型建设规范。下面是某一个地产公司的案例:该案例涉及到以下几个分层:贴源数据层ODS对业务数据进行汇聚、采集,尽可能的保留原始业务流程数据,与业务系统基本保持一致。仅做简单的整合、非结构化数据处理或者增加一些标识数据和日期,不做深度数据清洗。统一数仓层DW又分为【明细数据层DWD】和【汇总数据层DWS】DWD:data warehouse detail 细节数据层,有的也称为 ODS层,是bai业务层与数据仓原创 2020-06-23 20:09:09 · 2335 阅读 · 0 评论 -
数据中台(读书笔记)-3-数据开发
数据开发数据开发涉及到的产品能力主要包括三部分:离线开发、实时开发和算法开发。离线开发:主要包括离线数据的加工、发布、运维管理,以及数据分析、数据探索、在线查询和即席分析相关的工作。实时开发:主要涉及到数据的实时接入和实时处理,简化流数据的加工处理过程。算法开发:提供简单易用的可视化拖拽和Notebook方式来实现数据价值的深度挖掘。数据计算的四种类型(1)批计算用于批量数据高延迟处理场景,如离线数仓的加工、大规模数据的清洗和挖掘。目前大部分采用MapReduce、Hive、Sp原创 2020-06-22 17:57:47 · 1216 阅读 · 0 评论 -
数据中台(读书笔记)-2-数据汇聚
数据采集、汇聚的方法和工具线上行为采集埋点:服务端和客户端埋点线下行为采集通过硬件来采集:Wi-Fi探针、摄像头、传感器互联网数据采集网络爬虫内部数据采集(1)结构化数据采集;(2)半结构化数据采集:JSON、XML;(3)非结构化数据采集:公文、图片、图像、音视频;离线:全量、增量采集实时:通过增量日志和消息...原创 2020-06-21 12:11:51 · 2328 阅读 · 0 评论 -
数据中台(读书笔记)-1-开始部分
概念整合分散在哥哥孤岛上的数据 快速形成数据服务能力 为企业经营决策、精细化运营提供支撑数据中台必备的四个能力数据汇聚能力 数据提炼加工 数据服务可视化 数据价值变现数据中台 VS 业务中台业务中台:更多偏向于业务流程管控,讲业务流程中共性的服务抽象出来,形成通用的服务能力。数据中台:抽象数据能力的共性形成通用的数据服务能力。关联业务中台沉淀的业务数据进入数据中台进行体系化加工,在以数据化的方式支撑业务中台上的应用,而这些应用产生的新数据又流向数据中台,形成循环不息的数原创 2020-06-19 20:21:29 · 539 阅读 · 0 评论 -
(4)数仓建设-数据仓库命名规则
目录1.表属性规范-11.常规表2.中间表3.临时表4.维度表5.手工表6.指标2.表属性规范-21.ODS层表名 2.DW事实表表名3.DW/DM维度表表名4.元数据表名3.其他数据库对象1.表属性规范-11.常规表常规表是我们需要固化的表,是正式使用的表,是目前一段时间内需要去维护去完善的表。规范:分层前缀[dwd|dws|ads|bi]_业务域_主题域_XXX_粒度。业务域、主题域我们都可以用词根的方式枚举清楚,不断完善,粒度也.原创 2020-09-28 14:14:10 · 4927 阅读 · 0 评论 -
(3)数仓建设-数据仓库设计方案
一.概述 数据仓库的特征在于面向主题、集成性、稳定性和时变性,用于支持管理决策。数据仓库的存在的意义在于对企业的所有数据进行汇总,为企业各个部门提供统一的、规范的数据出口。数据仓库在构建过程中通常都需要进行分层处理。业务不同,分层的技术处理手段也不同。数仓分层的主要原因:清晰数据结构 每一个数据分层都有它的作用域,这样在使用表的时候能更方便的定位和理解。 数据血缘追踪 由于最终给业务呈现的是一个能直接使用的业务表,但是表的数据来源有很多,如果有一张来源表出问题了,我们希望能够快速准确的定位原创 2020-08-18 17:56:17 · 3469 阅读 · 0 评论 -
(2)数仓建设-维度建模
1、4步维度设计过程1.1 业务过程1.2 粒度1.3 描述环境的【维度】1.4 用于度量的【事实】2 事实表技术基础原创 2020-09-28 10:53:42 · 272 阅读 · 1 评论 -
(1)数仓建设-初遇
注:以下为学习笔记1、维度建模简介1.1星型模式与OLAP多维数据库1.2用于度量的事实表1.3用于描述环境的维度表1.4星式模式中维度与事实的连接原创 2020-09-27 22:09:48 · 334 阅读 · 0 评论