数据分层

最新推荐文章于 2024-07-14 07:39:29 发布

FangStar8Jeff

最新推荐文章于 2024-07-14 07:39:29 发布

阅读量643

点赞数

CC 4.0 BY-SA版权

本文链接：https://blog.youkuaiyun.com/qq_34341930/article/details/95349912

本文介绍流式数据模型的五层结构。ODS层是原始数据，保证实时和离线数据源头统一；DWD层是实时事实明细层，确保两层数据一致；DWS层计算通用维度汇总指标；ADS层处理个性化维度数据；DIM层数据从离线维表层导出供实时应用。还举例说明了各层存储的数据。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

在流式数据模型中，数据模型整体上分为五层。

1. ODS

跟离线系统的定义一样， ODS 层属于操作数据层，是直接从业务系统采集过来的最原始数据，包含了所有业务的变更过程，数据粒度也是最细的。在这一层，实时和离线在源头上是统一的，这样的好处是用同一份数据加工出来的指标，口径基本是统一的，可以更方便进行实时和离线间数据比对。例如：原始的订单变更记录数据、服务器引擎的访问日志。

2 . DWD
DWD 层是在ODS层基础上，根据业务过程建模出来的实时事实明细层，对于访问日志这种数据（没有上下文关系，并且不需要等待过程的记录），会回流到离线系统供下游使用，最大程度地保证实时和离线数据在ODS层和 DWD 层是一致的。例如：订单的支付明细表、退款明细表、用户的访问日志明细表。

3. DWS
订阅明细层的数据后，会在实时任务中计算各个维度的汇总指标。如果维度是各个垂直业务线通用的，则会放在实时通用汇总层，作为通用的数据模型使用。比如电商网站的卖家粒度，只要涉及交易过程，就跟这个维度相关，所以卖家维度是各个垂直业务的通用维度，其中的汇总指标也是各个业务线共用的。例如：电商数据的几大维度的汇总表（卖家、商品、买家）。

4. ADS
个性化维度汇总层，对于不是特别通用的统计维度数据会放在这一层中，这里计算只有自身业务才会关注的维度和指标，跟其他业务线一般没有交集，常用于一些垂直创新业务中。例如：手机淘宝下面的某个爱逛街、微淘等垂直业务。

5. DIM
实时维表层的数据基本上都是从离线维表层导出来的，抽取到在线系统中供实时应用调用。这一层对实时应用来说是静态的，所有的 ETL处理工作会在离线系统中完成。维表在实时应用的使用中跟离线稍有区别，后面章节中会详细说明。例如：商品维表、卖家维表、买家维表、类目维表。

下面通过简单的例子来说明每一层存储的数据。

ODS层：订单粒度的变更过程，一笔订单有多条记录。
DWD层：订单粒度的支付记录，一笔订单只有一条记录。
DWS层：卖家的实时成交金额，一个卖家只有一条记录，并且指标在实时刷新。
ADS层：外卖地区的实时成交金额，只有外卖业务使用。
DIM 层：订单商品类目和行业的对应关系维表。