Data Vault 模型是一种现代的数据仓库建模方法,它专门为应对大数据时代、数据来源复杂、业务变化频繁的挑战而设计。其核心思想是构建一个灵活、可扩展、可审计、易于维护的数据集成层。
1. 核心理念与设计原则
Data Vault 的诞生是为了解决传统数据仓库模型(如 Kimball 的维度建模、Inmon 的 3NF)在敏捷性和可维护性上的痛点。它的设计遵循几个关键原则:
- 分离业务键与上下文:将业务中稳定不变的核心实体(键)与易变的业务规则和描述(上下文)分离开。
- 可审计性:模型天然地记录所有数据的加载时间、来源信息,使得数据的整个生命周期都可追溯。
- 可扩展性:增加新的数据源或业务规则时,通常不需要重构现有模型,只需增加新的结构,对现有系统影响极小。
- 面向集成:它不是一个直接面向最终用户查询的模型,而是企业数据的“集成中心”或“统一真相层”,下游可以基于它构建各种数据集市(如维度模型)。
- 拥抱变化:业务规则的变化不会导致模型的重构,只需增加新的链接或卫星表,旧的数据依然被保留。
2. Data Vault 的核心组件
Data Vault 模型由三种基本类型的表构成,结构非常简单和规范。
a. 中心表 (Hubs)
-
是什么:代表企业核心业务实体或概念。每个中心表存储一个实体。
-
存储什么:
- 业务键 (Business Key):实体唯一的、来自源系统的标识符(如
CustomerID,OrderID,ProductSKU)。这是最重要的部分。 - 加载元数据:如记录来源(
Record Source)、加载时间戳(Load Date)等。
- 业务键 (Business Key):实体唯一的、来自源系统的标识符(如
-
特点:
- 一个业务键在中心表中只出现一次,起到去重和唯一标识

最低0.47元/天 解锁文章
2261

被折叠的 条评论
为什么被折叠?



