二、数据仓库笔记之数仓分层

本文详细介绍了大数据数据仓库的分层结构,包括ODS(Operational Data Store)、DWD(Data Warehouse Detail)、DWS(Data Warehouse Summary)和ADS(Application Data Service)。ODS层接近源头,保持数据原始状态;DWD层存储经过维度退化的明细表,满足第三范式;DWS层则为汇总宽表,便于数据分析。ADS层提供清洗后的数据服务,根据业务场景选择合适存储方案,如HBase、ES、Druid等。

2、数据仓库分层

2-1、分层的简单介绍

一般大数据数据仓库的分层结构如图所示:

在这里插入图片描述

其中,ODS层是近源层,一般是同步业务端数据,数据不进行更改(但是可以扩充字段,比如更新时间、来源等);CDM层是用来进行数据清洗、数据分析以及建模;ADS层存储的是清洗好的数据,对外提供数据服务,狭义上也称为数据集市层。

CDM层又分为数据明细层DWD和数据汇总层DWS层:

  • DWD层存储的是各种经过维度退化进行简单汇总的零散明细表,也就是各个模块的明细表,满足三范式。
  • DWS层存储的是各个明细表join一起得到的大宽表(目的是在进行数据分析时直接对宽表进行分析,不用再频繁Join),不满足三范式了。

2-2、DWD层与DWS层的关系与区别

区别:

数据明细层DWD层存储的是经过维度退化后进行简单汇总

明细表,何为维度退化?

维度就是一个组织方式,比如时间、分类、地域等,维度退化其实也就是简单汇总的过程,就是通过添加字段的形式,关联维度表形式一张表。比如,目前有四张表,分别是商品表、一级分类表、二级分类表、三级分类表,如图所示

在这里插入图片描述

那么,这里的维度退化,就指的是将主表关联维表最后形成一张表,也就是在商品表加五个字段,分别是:一级品类名称、二级品类id、二级品类名称、三级品类id、三级品类名称,如图所示

评论 2
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值