大数据事实表设计方法详解

我们来系统地讲解一下大数据环境下事实表的基本设计方法。这是一个数据仓库和数据湖建设的核心环节。

一、 核心概念:什么是事实表?

在维度建模中,数据被组织成事实表(Fact Table)维度表(Dimension Table)

  • 事实表:存储了可度量的业务数值数据(metrics),通常是数字和可加性的。它记录了“发生了什么”。
    • 例如:一个销售订单系统中的订单金额、销售数量、折扣金额等。
  • 维度表:存储了描述业务过程的文本性、描述性的上下文信息(context)。它说明了“谁、什么、哪里、何时、为何”。
    • 例如:日期、客户、产品、商店、促销渠道等。

事实表通过与多个维度表关联,形成一个星型模式(Star Schema)雪花模式(Snowflake Schema),便于理解和高效查询。


二、 事实表的设计步骤与方法

步骤一:选择业务过程

这是设计的第一步,也是最关键的一步。你需要明确要建模的业务活动是什么。

  • 例子
    • 零售:下单、支付、退货、物流发货、客户点评。
    • 电商:用户点击、加入购物车、提交订单、支付成功。
    • 金融:交易、授信、还款、理赔。

要点:一个事实表通常只对应一个原子业务过程(最细粒度的事件)。

步骤二:声明粒度

粒度(Granularity) 定义了事实表中每一行数据代表什么。它是事实表的灵魂,决定了事实表的“肥胖”程度和可分析性。

  • 高级别/粗粒度:每月每个产品的总销售额(一行代表一个月一个产品)
  • 低级别/细粒度:一个订单中的一个商品项(一行代表一笔交易中的一个具体商品)

设计原则尽可能选择最细粒度的数据。因为细粒度数据可以上卷(Roll-up)到任何粗粒度,

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值