大数据中的基本概念
数仓
数据仓库是一个优化的数据库,用于分析来自事务系统和业务线应用程序的关系数据。事先定义数据结构和 Schema 以优化快速 SQL 查询,其中结果通常用于操作报告和分析。数据经过了清理、丰富和转换,因此可以充当用户可信任的“单一信息源”。
事实表和维度表
- 事实表可以认为就是数据表,与现实世界相关
- 维度表是事实表的补充,比如下单的事实,有下单时间(维度表中有当时是星期几,节假日之类的),产品ID(维度表中有产品名称,产品型号之类的)
- 事实表通过外键与维度表关联。
事实表中的模型
- 星型模型 (Star Schema): 中心为事实表,周围是维度表,维度表直接连接至事实表,结构简单但冗余度高。
- 雪花模型 (Snowflake Schema): 在星型模型基础上,维度表进行进一步规范化拆分,减少冗余度,但会增加查询的复杂度。
理解事实表与维度表的差异及其关系,是构建高效数据仓库的重要基石。
数据分层
| 层级名称 | 简要描述 |
|---|---|
| 应用数据层 (ADS Application Data Service) | 存放数据产品个性化的统计指标数据,主要面向前端展示。 |
| 汇总数据层 (DWS Data Warehouse Summary) | 又称数据集市或宽表,按照业务划分,采用更宽表化手段构建公共指标数据层。 |
| 轻度汇总层 (DWM Data Warehouse Middle) | 对DWD层的生产数据进行轻度综合和汇总统计,包括复杂的清洗和处理,如会话数据的生成。 |
| 明细数据层 (DWD Data Warehouse Detail) | 采用维度退化的方法,将维度退化到事实表中,减少事实表与维度表的关联,提高明细表的易用性。 简单讲就是把额外的维度数据冗余在事实表 |
| 预处理层 (STAGING Staging Layer) | 存储每天的增量数据,表结构与ODS层表保持一致。 |
| 操作数据层 (ODS Operational Data Store) | 存储所有基础数据,经过ETL处理后装入本层,包括去噪、去重、字段重命名等处理。 |
| 原始数据层 (RAW Raw Data Layer) | 存储从各种数据源直接提取的原始数据,这些数据未经任何处理或转换。 |
| 维表层 (DIM Dimension) | 高基数维度数据存储,如用户资料表、商品资料表等,数据量可能是千万级或者上亿级别。 |
数据湖
数据湖有所不同,因为它存储来自业务线应用程序的关系数据,以及来自移动应用程序、IoT 设备和社交媒体的非关系数据。捕获数据时,未定义数据结构或 Schema。这意味着您可以存储所有数据,而不需要精心设计也无需知道将来您可能需要哪些问题的答案。您可以对数据使用不同类型的分析(如 SQL 查询、大数据分析、全文搜索、实时分析和机器学习)来获得Insight。
湖仓一体化
湖仓一体之前,数据分析经历了数据库、数据仓库和数据湖分析三个时代。
首先是数据库,它是一个最基础的概念,主要负责联机事务处理,也提供基本的数据分析能力。
随着数据量的增长,出现了数据仓库,它存储的是经过清洗、加工以及建模后的高价值的数据,供业务人员进行数据分析。
数据湖的出现,主要是为了去满足企业对原始数据的存储、管理和再加工的需求。这里的需求主要包括两部分,首先要有一个低成本的存储,用于存储结构化、半结构化,甚至非结构化的数据;另外,就是希望有一套包括数据处理、数据管理以及数据治理在内的一体化解决方案。
数据仓库解决了数据快速分析的需求,数据湖解决了数据的存储和管理的需求,而湖仓一体要解决的就是如何让数据能够在数据湖和数据仓库之间进行无缝的集成和自由的流转,从而帮助用户直接利用数据仓库的能力来解决数据湖中的数据分析问题,同时又能充分利用数据湖的数据管理能力来提升数据的价值。

1063

被折叠的 条评论
为什么被折叠?



