概述
数据仓库建议方法论的核心:从业务架构到模型设计,从数据研发到数据服务,做到数据可管理、可追溯、可规避重复建设。
数据模型的设计主要以维度建模理论为基础,基于维度数据模型总线架构,构建一致性的维度和事实。
模型分层
数据模型分三层
- 操作数据层(ODS,Operational Data Store )
- 应用数据层(ADS, Application Data Store)
- 公共维度模型层(CDM,Common Dimenssions Model)
1 ) 明细数据层(DWD,Data Warehouse Detail)
2 ) 汇总数据层(DWS,Data Warehouse Summary)
操作数据层 (ODS): 把业务系统数据无处理存放在数据仓库系统中。
- 同步: 结构化数据增量或全量同步到HDFS
- 结构化:非结构(日志)数据,结构化处理扣存储到HDFS
- 累积历史、清洗:根据业务需求及稽核和审计要求保存历史数据、清洗数据
公共维度模型层(CDM): 存放明细事实数据、维表数据及公共指标汇总数据
- DWD 层,明细事实数据、 维表数据一般根据 ODS 层数据加工生成。将维度退化至事实表中,减少事实表和维表的关联,提高明细数据表的易用性
- DWS 层,公共指标汇总数据一般根据维表数据和明细事实数据加工生成。在这一层,加强指标的维度退化,釆取更多的宽表化手段构建公共指标数据层,提升公共指标的复用性,减少重复加工。
- 组合相关和相似数据::釆用明细宽表,复用关联计算,减少数据扫描。
- 公共指标统一加工:基于 统一构建命名规范、口径一致和算法统