我们来系统地讲解一下大数据环境下事实表的基本设计方法。这是一个数据仓库和数据湖建设的核心环节。
一、 核心概念:什么是事实表?
在维度建模中,数据被组织成事实表(Fact Table)和维度表(Dimension Table)。
- 事实表:存储了可度量的业务数值数据(metrics),通常是数字和可加性的。它记录了“发生了什么”。
- 例如:一个销售订单系统中的订单金额、销售数量、折扣金额等。
- 维度表:存储了描述业务过程的文本性、描述性的上下文信息(context)。它说明了“谁、什么、哪里、何时、为何”。
- 例如:日期、客户、产品、商店、促销渠道等。
事实表通过与多个维度表关联,形成一个星型模式(Star Schema) 或雪花模式(Snowflake Schema),便于理解和高效查询。
二、 事实表的设计步骤与方法
步骤一:选择业务过程
这是设计的第一步,也是最关键的一步。你需要明确要建模的业务活动是什么。
- 例子:
- 零售:下单、支付、退货、物流发货、客户点评。
- 电商:用户点击、加入购物车、提交订单、支付成功。
- 金融:交易、授信、还款、理赔。
要点:一个事实表通常只对应一个原子业务过程(最细粒度的事件)。
步骤二:声明粒度
粒度(Granularity) 定义了事实表中每一行数据代表什么。它是事实表的灵魂,决定了事实表的“肥胖”程度和可分析性。
- 高级别/粗粒度:每月每个产品的总销售额(一行代表一个月一个产品)
- 低级别/细粒度:一个订单中的一个商品项(一行代表一笔交易中的一个具体商品)
设计原则:尽可能选择最细粒度的数据。因为细粒度数据可以上卷(Roll-up)到任何粗粒度,

最低0.47元/天 解锁文章
1011

被折叠的 条评论
为什么被折叠?



