读书笔记:大数据平台-数据仓库模型

本文介绍了大数据平台的数据仓库模型设计,包括模型的三层结构:ODS、ADS和CDM层,强调了高内聚低耦合、核心模型与扩展模型分离等基本原则,以及数据一致性、可回滚性和命名规范的重要性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

概述

数据仓库建议方法论的核心:从业务架构到模型设计,从数据研发到数据服务,做到数据可管理、可追溯、可规避重复建设。

数据模型的设计主要以维度建模理论为基础,基于维度数据模型总线架构,构建一致性的维度和事实。

模型分层

数据模型分三层

  • 操作数据层(ODS,Operational Data Store )
  • 应用数据层(ADS, Application Data Store)
  • 公共维度模型层(CDM,Common Dimenssions Model)
    1 ) 明细数据层(DWD,Data Warehouse Detail)
    2 ) 汇总数据层(DWS,Data Warehouse Summary)

操作数据层 (ODS): 把业务系统数据无处理存放在数据仓库系统中。

  • 同步: 结构化数据增量或全量同步到HDFS
  • 结构化:非结构(日志)数据,结构化处理扣存储到HDFS
  • 累积历史、清洗:根据业务需求及稽核和审计要求保存历史数据、清洗数据

公共维度模型层(CDM): 存放明细事实数据、维表数据及公共指标汇总数据

  • DWD 层明细事实数据、 维表数据一般根据 ODS 层数据加工生成。将维度退化至事实表中,减少事实表和维表的关联,提高明细数据表的易用性
  • DWS 层公共指标汇总数据一般根据维表数据和明细事实数据加工生成。在这一层,加强指标的维度退化,釆取更多的宽表化手段构建公共指标数据层,提升公共指标的复用性,减少重复加工。
    • 组合相关和相似数据::釆用明细宽表,复用关联计算,减少数据扫描。
    • 公共指标统一加工:基于 统一构建命名规范、口径一致和算法统
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值