数据仓库建模方法论：维度模型

最新推荐文章于 2025-04-28 09:24:42 发布

scc2140

最新推荐文章于 2025-04-28 09:24:42 发布

阅读量1.3k

点赞数 30

文章标签：数据仓库

本文链接：https://blog.youkuaiyun.com/qq_62984376/article/details/142412760

版权

使用ER模式建立的数仓，优点是没有冗余的数据。缺点是：数仓是用于分析的，分析的数据量特别大，多个表需要join操作，运行的时候特别慢。

比如：统计哪一年，哪个国家的哪个品类卖的最好？

此时就需要join 12张表，数据量特别大的情况下就是灾难。

所以ER模式-- mysql等关系型数据库依然在用。

hive等用于分析的工具不用了，数据量大不便于分析

因为ER模型用不了，所以有大师提出了另一种模型-----维度建模法

下图为一个典型的维度模型，其中位于中心的SalesOrder为事实表，其中保存的是下单这个业务过程的所有记录。位于周围每张表都是维度表，包括Date（日期），Customer（顾客），Product（产品），Location（地区）等，这些维度表就组成了每个订单发生时所处的环境，即何人、何时、在何地下单了何种产品。从图中可以看出，模型相对清晰、简洁。

维度越多，用于统计的指标就越丰富。

维度建模以数据分析作为出发点，为数据分析服务，因此它关注的重点是用户如何更快的完成需求分析以及如何实现较好的进行大规模复杂查询的响应性能。

所以，目前来讲，维度建模法，是最流行的。各大公司都用的是维度建模法。

维度建模的过程：

第一步选取业务处理：

业务处理过程是组织机构中进行的一般都由源系统提供支持的 [自然业务活动]。

要记住的重要一点是，这里谈到的业务处理过程并不是指业务部门或者职能。

第二步定义粒度

粒度定义意味着对各事实表行实际代表的内容给出明确的说明。

粒度传递了同事实表度量值相联系的细节所达到的程度方面的信息。它给出了后面这个问题的答案:“如何描述事实表的单个行?”。

粒度定义是不容轻视的至关重要的步骤。在定义粒度时应优先考虑为业务处理获取最有原子性的信息而开发维度模型。

原子型数据是所收集的最详细的信息，是高维度结构化的。

度量值越细微并具有原子性，就越能够确切地知道更多的事情。

原子型数据可为分析方面提供最大限度的灵活性，维度模型的细节性数据是稳如泰山的，并随时准备接受业务用户的特殊攻击。

第三步选定维度

维度所引出的问题是，“业务人员将如何描述从业务处理过程得到的数据?”

应该用一组在每个度量上下文中取单一值而代表了所有可能情况的丰富描述，将事实表装扮起来。

常见维度的例子包括日期、产品、客户、账户和机构等。

第四步确定事实(度量指标)

事实的确定可以通过回答“要对什么内容进行评测”这个问题来进行。

1、针对某个特定的行为动作，建立一个以行为活动最小单元为粒度的事实表。

2、针对某个实体对象在当前时间上的状况。我们通过对这个实体对象在不同阶段存储它的快照。

3、针对业务活动中的重要分析和跟踪对象，统计在整个企业不同业务活动中的发生情况。