一. 简介
1. 数仓分层架构
1.1 为什么要分层
- 清晰数据结构
- 方便数据血缘追踪
- 减少重复开发
- 把复杂问题简单化
- 屏蔽原始数据的异常
2. 数据中台3大层对应阿里5层数据模型
-
ODS层 (Operation Data Store)
1.1 数据来源
(1)业务库
离线数据:sqoop定时抽取日志
实时数据:canal实时监听binlog 日志(2)埋点日志
日志以文件形式存在:flume 定时抽取
spark streaming /flink 实时抽取日志
(3)消息队列
active mq / kafka -
数据仓库层 (Data warehouse)
2.1 四个概念
维度(dimension)/事实(fact)/指标(index)/粒度(granularity)2.2 DW分三层
DWD,DWB,DWS
(1) DWD data warehouse detail
(2) D