【大数据专栏】大数据中的基本概念

原创已于 2025-09-12 10:31:43 修改 · 538 阅读

5 ·

CC 4.0 BY-SA版权

文章标签：

#大数据

于 2025-03-31 16:31:13 首次发布

大数据专栏收录该内容

13 篇文章

订阅专栏

文章目录

大数据中的基本概念

大数据中的基本概念

数仓

数据仓库是一个优化的数据库，用于分析来自事务系统和业务线应用程序的关系数据。事先定义数据结构和 Schema 以优化快速 SQL 查询，其中结果通常用于操作报告和分析。数据经过了清理、丰富和转换，因此可以充当用户可信任的“单一信息源”。

事实表和维度表

事实表可以认为就是数据表，与现实世界相关
维度表是事实表的补充，比如下单的事实，有下单时间（维度表中有当时是星期几，节假日之类的），产品ID(维度表中有产品名称，产品型号之类的）
事实表通过外键与维度表关联。

事实表中的模型

星型模型 (Star Schema)：中心为事实表，周围是维度表，维度表直接连接至事实表，结构简单但冗余度高。
雪花模型 (Snowflake Schema)：在星型模型基础上，维度表进行进一步规范化拆分，减少冗余度，但会增加查询的复杂度。
理解事实表与维度表的差异及其关系，是构建高效数据仓库的重要基石。

数据分层

层级名称	简要描述
应用数据层 (ADS Application Data Service)	存放数据产品个性化的统计指标数据，主要面向前端展示。
汇总数据层 (DWS Data Warehouse Summary)	又称数据集市或宽表，按照业务划分，采用更宽表化手段构建公共指标数据层。
轻度汇总层 (DWM Data Warehouse Middle)	对DWD层的生产数据进行轻度综合和汇总统计，包括复杂的清洗和处理，如会话数据的生成。
明细数据层 (DWD Data Warehouse Detail)	采用维度退化的方法，将维度退化到事实表中，减少事实表与维度表的关联，提高明细表的易用性。简单讲就是把额外的维度数据冗余在事实表
预处理层 (STAGING Staging Layer)	存储每天的增量数据，表结构与ODS层表保持一致。
操作数据层 (ODS Operational Data Store)	存储所有基础数据，经过ETL处理后装入本层，包括去噪、去重、字段重命名等处理。
原始数据层 (RAW Raw Data Layer)	存储从各种数据源直接提取的原始数据，这些数据未经任何处理或转换。
维表层 (DIM Dimension)	高基数维度数据存储，如用户资料表、商品资料表等，数据量可能是千万级或者上亿级别。

数据湖

数据湖有所不同，因为它存储来自业务线应用程序的关系数据，以及来自移动应用程序、IoT 设备和社交媒体的非关系数据。捕获数据时，未定义数据结构或 Schema。这意味着您可以存储所有数据，而不需要精心设计也无需知道将来您可能需要哪些问题的答案。您可以对数据使用不同类型的分析（如 SQL 查询、大数据分析、全文搜索、实时分析和机器学习）来获得Insight。