数仓必备概念

数据仓库是集成的、非易失的、时变的数据集合,用于决策支持,其特点包括面向主题、集成性、非易失性和时变性。三范式建模是实体关系模型,涉及实体、属性和联系的设计。维度建模则关注星型模型、雪花模型和事实表的构建。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

目录

数据仓库

三范式建模

维度建模


数据仓库

           是一个面向主题的(Subject)、集成的(Integrated)、非易失(Non-Volatile)、时变性(Time Variant)的数据集合,用于支持管理决策(Decision Support System)

概念解释备注
主题

在较高层次上将企业信息系统中数据进行综合、归类分析利用的一个抽象概念每一个主题基本对应一个宏观分析领域。在逻辑意义上,它是对应企业中某一宏观分析领域所涉及的分析对象。

面向主题的数据组织方式,就是在较高层次上对分析对象数据的一个完整并且一致的描述,能刻画各个分析对象所涉及的企业各项数据,以及数据之间的联系
主题域对某个主题进行分析后确定的主题的边界。比如,对于餐饮公司管理层需要分析的主题一般包括供应商主题、商品主题、客户主题等。其中商品主题的内容包括记录超市商品的采购情况、商品的销售情况和商品的存储情况;客户主题包括的内容可能有客户购买商品的情况;
基础主题数仓按实体进行综合、归类,每一个主题基本对应一个或多个核心实体,并对其进行完整并且一致的描述,刻画其所涉及的企业各项数据。主题间数据是高度解耦的
分析主题数仓中根据实际的分析主体对数据综合、归类分析利用的集合。一个分析主题一般是对某一分析主体的高度汇总的数据集合,可以多个基础主题的数据聚集而成,如 “客户分析主题
集成数据进入数仓进行转换、重新格式化、重新排列以及汇总等操作,结果是只要是存在与数据仓库中的数据就具有企业的单一物理映像
非易失数仓的数据通常以批量方式载入与访问,但一般不进行数据更新,以静态快照的格式进行装载。当产生后继变化时,一个新的快照记录就会写入数仓,这样数仓就保持了数据的历史状况
时变性数仓中的每个数据单元在某一时间是准确的,数仓的数据是反映历史变化的
OLTPOLTP 系统主要用来记录某类业务事件的发生,数据会以增删改的方式在数据库中进行数据的更新处理操作,要求实时性高、稳定性强、确保数据及时更新成功,像公司常见的业务系统如ERPCRMOA等系统都属于OLTP
OLAP联机分析处理。OLAP 系统主要为公司做决策提供支持,当数据积累到一定的程度,需要对过去发生的事情做总结分析,并从中获取信息

三范式建模

业界一般叫实体关系模型,是指提炼业务,归纳并设计对应的实体关系模型的过程。ER建模最终输出的结果为实体关系图(ERD-Entity Relationship Diagram),ERD有三个基本元素,分别是:实体、属性、联系。

概念解释备注
实体一般认为,客观上可以相互区分的事物,实体可以是具体的人或物,也可以是抽象的概念与特质。关键在于一个实体能否与另一个实体相互区分。
属性属性是依托于实体存在的,如商家是一个实体,属性包括:地址,经纬度,经营品类等
联系联系也称关系,实体内部的关系或者是实体与实体之间的关系。实体内部的关系(实体各属性之间的联系);实体之间的关系(不同实体间的联系)
一般性约束实体-联系数据模型中的联系型,存在3种一般性约束:一对一约束(联系)、一对多约束(联系)和多对多约束(联系),它们用来描述实体集之间的数量约束。在约束中可以分为强制参与 或 选择参与。

维度建模

由于这块的概念网上比较多,大家自行百度即可,有几个关键的几个地方需要牢牢掌握,如常问的星型模型,雪花模型,事实表分哪几种,等

部分概念:

事实:表示某个业务度量。

不可加事实:如价格。

半可加事实:部分维度下不可加,如余额不可以按照时间累加。

---关注我,持续更新中。

### 数据仓库的基本概念 数据仓库是一个用于支持管理和决策的信息系统组件,其核心目标是对企业内部各类据进行集中化存储和管理[^1]。它通过对来自多个异构源系统的据进行抽取、转换和加载(ETL),形成一个统一的据视图,从而为企业提供高效的据查询和分析能力。 #### 什么是数据仓库数据仓库可以被定义为一种面向主题的、集成的、相对稳定的、反映历史变化的据集合[^2]。它的设计目的是为了支持管理层的决策制定过程。例如,在零售行业中,数据仓库可以帮助企业管理者了解销售趋势、客户行为以及库存状况等重要信息。 #### 数据仓库的主要特征 数据仓库具有以下几个显著特点: - **面向主题**:与传统操作型据库不同,数据仓库的设计围绕具体的业务领域展开,而不是事务处理流程。 - **集成性**:数据仓库中的据来源于多种渠道,经过清洗和标准化后才能进入库,因此具备高度一致性。 - **稳定性**:一旦写入数据仓库,通常不会频繁更新或删除记录;相反,新版本会被追加保存下来以便追踪时间序列上的变动情况。 - **历史性**:保留过去某一时间段内的全部交易细节或其他形式的历史资料对于长期趋势研究至关重要。 ### 技能要求 掌握构建和维护有效运作模式下的现代型企业级规模大小不等的各种类型的所需的知识和技术是非常重要的: #### ETL 过程的理解与实践 熟悉 Extract (提取), Transform(变换) 和 Load(装载) 的整个工作流是成为合格的大据工程师的基础之一。此过程中涉及到了大量的编程技巧如 SQL 查询优化, Python 脚本编写等等来完成复杂的据映射关系定义及异常检测修复等功能实现。 #### 多维据分析方法论 学会运用 OLAP (Online Analytical Processing)工具来进行交互式的探索式分析也是必备的能力之一。这包括但不限于理解星型模型/雪花型架构设计原理; 掌握 MDX 或 DAX 表达式语法用于高级聚合运算等方面的内容[^4]。 #### 性能调优策略 随着据量的增长,如何保持良好的查询响应速度成为一个挑战性的课题。这就需要深入探讨索引机制的选择依据及其影响因素等问题,并采取适当措施加以改进,比如分区表的应用案例讨论等[^3]。 ```sql -- 创建分区表示例 CREATE TABLE sales_data ( sale_id INT, product_name VARCHAR(100), quantity_sold INT, sale_date DATE ) PARTITION BY RANGE (sale_date); ``` ### 据治理的重要性 除了上述提到的技术层面之外,还需要特别关注于建立健全完善的据管理制度框架体系之上——即所谓的“据治理体系”。其中包括但不限于元据管理、质量控制标准设定等多个方面的工作内容安排计划执行监督评估反馈循环迭代改进等一系列连续不断的动作组合而成的整体解决方案呈现给最终使用者参考借鉴采纳实施落地生根开花结果的过程描述而已啦!
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值