阿里巴巴大数据之道-大数据领域建模综述
为什么要数据建模?
Linux 的创始人 Torvalds 有一段关于“什么才是优秀程序员”的话:“烂程序员关心的是代码,好程序员关心的是数据 结构和它们之间的关系。“
数据建模的好处
- 性能 :良好的数据模型能帮助我们快速查询所需要的数据,减少 数据的 110 吞吐。
- 成本 : 良好的数据模型能极大地减少不必要的数据冗余,也能实 现计算结果复用,极大地降低大数据系统中的存储和计算成本。
- 效率 :良好的数据模型能极大地改善用户使用数据的体验,提高 使用数据的效率。
- 质量 : 良好的数据模型能改善数据统计口径的不一致性,减少数 据计算错误的可能性。
OLTP 和 OLAP 建模区别
OLTP
- 主要数据操作是随机读写
- 主要采用满足 3NF 的实体关系模型存储数据
- 在事务处理中解决数据的冗余和一 致性问题
OLAP
- 主要数据操作是批量读写
- 事务处理中 的一致性不是 OLAP 所关注的
- 关注数据的整合,以及在一次性 的复杂大数据查询和处理中的性能
建模方法论
ER模型
-
简述
- 数据仓库之父 Bill lnmon 提出的建模方法是从全企业的高度设计一 个 3NF 模型,用实体关系( Entity Relationship, ER)模型描述企业业 务,在范式理论上符合 3NF。数据仓库中的 3NF 与 OLTP 系统中的 3NF 的区别在于,它是站在企业角度面向主题的抽象,而不是针对某个具体 业务流程的实体对象关系的抽象。
-
特点
- 需要全面了解企业业务和数据。
- 实施周期非常长。
- 对建模人员的能力要求非常高。
-
建模步骤
-
高层模型
- 一个高度抽象的模型,描述主要的主题以及主题间的 关系,用于描述企业的业务总体概况。
-
中层模型
- 在高层模型的基础上,细化主题的数据项。
-
物理模型(也叫底层模型)
- 在中层模型的基础上,考虑物理存 储,同时基于性能和平台特点进行物理属性的设计,也可能做一 些表的合并、分区的设计等。
-
维度模型
-
简述
- 维度模型是数据仓库领域的 Ralph Kimball 大师所倡导的,他的 The Data 阳rehouse 岛olkit-The Complete Guide to Dimensional Modeling 是 数据仓库工程领域最流行的数据仓库建模的经典。
-
特点
- 从分析决策的需求出发构建模型,为分析需求服务
- 具有较好的大规模复 杂查询的响应性能
- 其典型的代表是星形模型,以及在一些特殊场景下 使用的雪花模型
-
模型分类
- 雪花模型
- 星型模型
- 星座模型
-
建模步骤
-
选择需要进行分析决策的业务过程
- 业务过程可以是单个业务事 件,比如交易的支付、退款等;也可以是某个事件的状态,比如 当前的账户余额等;还可以是一系列相关业务事件组成的业务流 程,具体需要看我们分析的是某些事件发生情况,还是当前状态, 或是事件流转效率。
-
选择粒度
- 在事件分析中,我们要预判所有分析需要细分的程度,从而决定选择的粒度。粒度是维度的一个组合。
-
识别维表
- 选择好粒度之后,就需要基于此粒度设计维表,包括 维度属性,用于分析时进行分组和筛选。
-
选择事实
- 确定分析需要衡量的指标。
-
Data Vault 模型
-
简述
- Data Vault 是 Dan Linstedt 发起创建的一种模型,它是 ER 模型的衍 生,其设计的出发点也是为了实现数据的整合,但不能直接用于数据分 析决策。
-
特点
- 可审计的基础数据层
- 数据的历史 性、可追溯性和原子
- 而不要求对数据进行过度的一致性处理和整合
- 基于主题概念将企业数据进行结构化组织
-
组成部分
-
Hub
- 是企业的核心业务实体,由实体 key、数据仓库序列代理 键、装载时间、数据来源组成。
-
Link
- 代表 Hub 之间的关系。这里与 ER 模型最大的区别是将关 系作为一个独立的单元抽象,可以提升模型的扩展性。它可以直 接描述 1 : 1 、 l :n 和 n:n 的关系,而不需要做任何变更。它由 Hub 的代理键、装载时间、数据来源组成。
-
Satellite
- 是 Hub 的详细描述内容, 一个 Hub 可以有多个 Satellite。 它由 Hub 的代理键、装载时间、来源类型、详细的 Hub 描述信 息组成。
-
-
模型实例
Anchor 模型
-
简介
- Anchor 对 Data Vault 模型做了进一步规范化处理, Lars. Ri:innback 的初衷是设计一个高度可扩展的模型,其核心思想是所有的扩展只是添 加而不是修改,因此将模型规范到 6NF,基本变成了 k-v 结构化模型。
-
组成部分
-
Anchors
- 类似于 Data Vault 的 Hub ,代表业务实体,且只有主键。
-
Attributes
- 功能类似于 Data Vault 的 Satellite ,但是它更加规范 化,将其全部 k-v 结构化, 一个表只有一个 Anchors 的属性描述。
-
Ties
- 就是 Anchors 之间的关系,单独用表来描述,类似于 Data Vault 的 Link,可以提升整体模型关系的扩展能力。
-
Knots
- 代表那些可能会在多个 Anchors 中公用的属性的提炼, 比如性别、状态等这种枚举类型且被公用的属性。
-
-
模型实例
综合实践
模型设计
-
ODS:操作数据层
- 存储所有基础数据,做简单的数据清洗
-
DWD:明细数据层
- 采用维度退化的方法,将维度退化到事实表中,减少事实表和维度表的关联,调高明细表的易用性
-
DWS:汇总数据层
- 采用更多的宽表化手段,构建公共指标数据层
-
ADS:应用数据层
- 存放数据产品个性化的统计指标数据,主要面向前端展现
-
DIM:维度表
- 存储所有维度表数据
读感:
阿里巴巴大数据之道-大数据领域建模综述,本章节主要简述了数仓建模的基本方法论,不设计到理论的实践。解答了为什么要数据建模?以及建模的方法论有哪些?
可以做个初步的数仓建模理论理解,目前大多选择维度建模为主+宽表输出建设。要想更好的理解每个模型的优劣和不同点,还需要多实践。