Flink实时数仓项目—项目初了解
前言
学习完了Flink1.13,拿个项目练练手。
一、实时数仓分层介绍
1.普通的实时计算与实时数仓比较
普通的实时计算和实时数仓有什么区别?或者说实时数仓为什么要分层?
普通的实时计算首先考虑的是时效性,所以是直接从数据源采集数据,然后直接计算得到结果,这样做时效性更好,但是它有一定的弊端,它的中间计算的结果没有沉淀下来。在需求不断增加的时候,部分重复的计算不能够进行复用,导致开发成本直线上升。
实时数仓是基于一定的数据仓库理念,对数据处理流程进行规划、分层,目的是提高数据的复用性。
2.实时电商数仓分层规划
1)ODS层
ODS层:存放原始数据,包括日志数据和业务数据。
2)DWD层
DWD层:根据数据对象为单位进行分流,比如订单、页面访问等等。
3)DIM层
DIM层:存放的是维度数据
4)DWM层
DWM层:对于部分数据对象进行进一步加工,比如独立访问、跳出行为,也可以和维度进行关联,形成宽表,依旧是明细数据。
5)DWS层
DWS层:根据某个主题将多个事实数据轻度聚合,形成主题宽表。
6)ADS层
ADS层:把ClickH