数据分层

本文介绍流式数据模型的五层结构。ODS层是原始数据,保证实时和离线数据源头统一;DWD层是实时事实明细层,确保两层数据一致;DWS层计算通用维度汇总指标;ADS层处理个性化维度数据;DIM层数据从离线维表层导出供实时应用。还举例说明了各层存储的数据。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

在流式数据模型中,数据模型整体上分为五层。

 

1. ODS

 跟离线系统的定义一样, ODS 层属于操作数据层,是直接从业务系统采集过来的最原始数据,包含了所有业务的变更过程,数据粒度也是最细的。在这一层,实时和离线在源头上是统一的, 这样的好处是用同一份数据加工出来的指标,口径基本是统一的,可以更方便进行实时和离线间数据比对。例如:原始的订单变更记录数据、服务器引擎的访问日志。

 

 

2 . DWD
DWD 层是在ODS层基础上,根据业务过程建模出来的实时事实明细层,对于访问日志这种数据(没有上下文关系,并且不需要等待过程的记录),会回流到离线系统供下游使用,最大程度地保证实时和离线数据在ODS层和 DWD 层是一致的。例如:订单的支付明细表、退款明细表、用户的访问日志明细表。

 

3. DWS
订阅明细层的数据后,会在实时任务中计算各个维度的汇总指标。如果维度是各个垂直业务线通用的,则会放在实时通用汇总层,作为通用的数据模型使用。比如电商网站的卖家粒度,只要涉及交易过程,就跟这个维度相关,所以卖家维度是各个垂直业务的通用维度,其中的汇总指标也是各个业务线共用的。例如:电商数据的几大维度的汇总表(卖家、商品、买家)。

 

4. ADS
个性化维度汇总层,对于不是特别通用的统计维度数据会放在这一层中,这里计算只有自身业务才会关注的维度和指标,跟其他业务线一般没有交集,常用于一些垂直创新业务中。例如:手机淘宝下面的某个爱逛街、微淘等垂直业务。

 

5. DIM
实时维表层的数据基本上都是从离线维表层导出来的,抽取到在线系统中供实时应用调用。这一层对实时应用来说是静态的,所有的 ETL处理工作会在离线系统中完成。维表在实时应用的使用中跟离线稍有区别,后面章节中会详细说明。例如:商品维表、卖家维表、买家维表、类目维表。

 

下面通过简单的例子来说明每一层存储的数据。

ODS层:订单粒度的变更过程, 一笔订单有多条记录。
DWD层:订单粒度的支付记录,一笔订单只有一条记录。
DWS层: 卖家的实时成交金额,一个卖家只有一条记录,并且指标在实时刷新。
ADS层:外卖地区的实时成交金额,只有外卖业务使用。
DIM 层:订单商品类目和行业的对应关系维表。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值