数仓分层

本文介绍了数据分层的目的和优点,目的是让数据有序流转,使生命周期可被感知,且层次和依赖关系清晰。优点包括清晰数据结构、减少重复开发、统一数据口径、简化复杂问题。还阐述了一种通用数据结构,如ODS层、DW层、ADS层、DIM层等及其特点。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1.分层目的

  数据能够有秩序地流转,数据的整个生命周期能够清晰明确被设计者和使用者感知到

  层次清晰、依赖关系直观

 

2.分层的优点:

清晰数据结构:每一个数据分层都有它的作用域和职责,在使用表的时候能更方便地定位和理解

减少重复开发:规范数据分层,开发一些通用的中间层数据,能够减少极大的重复计算

统一数据口径:通过数据分层,提供统一的数据出口,统一对外输出的数据口径

复杂问题简单化:将一个复杂的任务分解成多个步骤来完成,每一层解决特定的问题

 

3.一种通用的数据结构

ODS层:贴源层(近源层)

               来源于各个业务系统数据

               为了后续能够追溯问题,ods层一般不做过多的数据清洗工作,直抽各个业务系统数据,可以做部分的ETL清洗,如统一单位、命名、编码等

 

 DW层:数据仓库层

              数据仓库的核心层。从ods获取数据按照主题建立数据模型。

     可细分为:DWD(数据明细层)  DWM(数据中间层)  DWS(数据中间层)

              DWD:保存跟ods层一样的数据粒度,并提供一定的数据质量保证。

        为提高明细的易用性,减少事实表与维表的关联,该层会采用维度退化手段,将维度退化至事实表中。

        该层也会做数据聚合,将相同主题的数据汇集至一张表中

    DWM:在DWD数据基础上,做轻度聚合,生成一系列中间表,提高公共指标的复用性,减少重复加工

       即:对通用的核心维度进行聚合操作

    DWS:数据集市/宽表

       按照业务划分,生成字段较多的宽表,用于提供后续的业务查询,olap分析,数据分发等。

         该层的数据表相对较少,一张表会涵盖比较多的业务内容,由于字段数较多,因此会称该层的表为宽表

 ADS:数据应用层

    提供给数据产品,数据分析使用的数据。

DIM:维表层

            高基数维度数据:用户资料表、商品信息表  数据量上千万 上亿

            低基数维度数据:配置表,数据量在个位数 或者几千几万

转载于:https://www.cnblogs.com/yin-fei/p/10880287.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值