20220715一点点摆烂记录
数据架构设计
数据架构设计概述
数据仓库数据架构设计是为应用架构设计提供数据框架支撑,为应用数据资源采集、存储、处理和交换提供建设性依据。主要从数据如何分布存储,数据的流转关系,数据存储模型设计等内容进行描述。
数据总体架构
数据存储按类型分为贴源数据、标准化数据、主题数据和集市数据,各源系统项目组提供源系统数据质量标准,数据仓库项目组参考源系统标准及应用需求制定数据仓库质量标准规范,构建数据模型及质量报告,源系统项目组可查阅数据质量报告,同时也能够应用数据仓库中的信息。如下图所示:
贴源层
贴源层是各源系统数据进入在数据仓库系统中数据存储的第一层,是各源系统数据进入数据仓库系统的入口,是为数据仓库其它数据层提供数据依据。贴源层需把源系统数据中初始化的数据和增量数据加工处理,保证与源系统数据一致;初始化数据与增量数据整合后保证与源系统数据一致,并提供与源系统一致数据集成的服务界面。
其主要特点:
- 把不同数据源的数据收集、加载到贴源层统一存储
- 为数据仓库内部和外部数据消费者提供统一的数据源
- 生成源系统和贴源层数据的依赖关系
- 保证源系统和贴源层数据一致性,不做清洗和转换
- 异常和错误数据处理
- 将不同来源的数据整合到统一物理技术平台和数据模型,对应用直接服务。
基础层
基础层是一个面向主题的、集成的、可变的、当前的细节数据集合。是在贴源层数据的基础上,是把不同数据源的数据收集、整理、清洗、转化后加载到一个新的数据源,是对贴源层数据进行进一步沉淀,为数据消费者提供统一数据视图。
其主要特点:
- 业务逻辑转换
- 通常和贴源层数据粒度保持一致
- 需要对贴源层数据进行过滤、清洗、转换,初步实现数据质量的标准统一
- 一般采用关系型数据库进行结构化数据存储
通用层
通用层是根据企业核心业务价值链构建最细业务粒度汇总层,包含应用层数据发布之前的聚合数据。在本层需要进行指标与维度的标准化,保证指标数据的唯一性。其主要特点:
- 指标与维度的标准化
- 数据产品发布区
- 明细数据和历史数据处理
- 宽表、汇总表模型
- 按照星型模型或雪花模型设计方式建设
应用层
以需求为导向,以分析指标为核心,满足集团部门各业务处室、专业公司和地区公司的用户应用展示需求,为最终用户提供数据服务需求。该层主要特点:
- 采用星型或雪花型模型设计方法构建数据模型
- 按需提供数据
- 数据粒度高度汇总
- 采用星型或雪花型模型设计方法构建数据模型
其中对应用层按照功能又划分:
应用区:存放和发布正式非敏感应用数据。
敏感区:存放和发布敏感数据,如薪资、工艺等信息。
沙滩区:进行数据