数仓相关

OLAP

OLTP 事务,是传统的关系型数据库的主要应用。主要是基本的、日常的事务处理,例如银行交易。
OLAP 分析,是数据仓库系统的主要应用,支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果。

模型表为什么叫模型表
  • 因为可以通过不同模式(面向业务过程、面向分析、面向事件event主题)建模,这样表就按照某一个逻辑呈现、储存数据了。
数仓为什么要分层?

在实际项目中,常常根据业务需求频繁性来确定需要聚集的维度。此外,为了保证数据的一致性,汇总的事实表通常基于明细表的维度和事实进行计算,有汇总表可以节省计算成本

  • 应对业务方的数据需求,构建汇总表,这样不会每次查询的时候都调用事实表,从底层多个Join取数据。有了汇总表,频繁的查询下可以节省成本。

数据同步 ODS Stage 层

  • 各个系统的元数据通过ETL同步到操作性数据仓库ODS中
  • 为什么需要ETL呢?
  • 用户使用的应该是数据团队精心加工后的数据,而不是来自于业务系统的原始数据。原始数据库A里可能用1代表下单成功,0代表失败;而系统B里可能用success代表成功,fail代表下单失败。而作为数据使用者(分析师),最终希望看到的是一个汇总的、规范、包含所有订单信息而且口径统一的宽表。

  • 数据来源包括业务数据库(结构化)、日志数据(半结构化)、文本/音频/图片(非结构化)数据

DW层 DWD DWB DWS
DWD和DWS是由ODS层数据经过ETL清洗、转换、加载而生成的,而且它们通常都是基于Kimball的维度建模理论来构建的,并通过一致性维度和数据总线来保证各个子主题的维度一致性。

指标
  • 事务性指标:衡量业务活动 存量型指标:衡量状态,如截止当前的会员注册数;
  • 复合型指标:如浏览UV-下单买家转化率,是在前两者基础上计算、复合而成的
  • 比例型(留存)、排名型(TOP 15明细)等

数仓名词术语解释

<think>我们正在处理用户关于数据仓库的查询,用户明确提到了几个关键词:数据仓库架构、ETL流程、星型模型、雪花模型。根据引用内容,我们可以构建一个结构化的回答。 首先,引用[1]介绍了数据仓库架构(自顶向下和自底向上)、维度据建模以及星型模型和雪花模型。引用[2]提到了事实星座模式(这是星型模型的扩展,用于企业级数据仓库)。引用[3]详细对比了星型模型和雪花模型,并给出了核心概念。引用[4]则从效率和设计复杂度方面比较了两种模型。 因此,我们的回答结构可以如下: 1.数据仓库架构:介绍自顶向下和自底向上两种架构。 2. ETL流程:简要说明ETL的三个步骤(抽取、转换、加载)。 3.星型模型:描述其结构(一个事实表+多个维度表,维度表非规范化)和优缺点。 4.雪花模型:描述其结构(维度表进一步规范化,分解成多张表)和优缺点。5.两种模型的对比:根据引用[4],从效率、设计复杂度、冗余等方面进行对比。注意:所有学表达式(如果有)要使用$...$,独立公式用$$...$$。由于当前内容没有学公式,所以主要关注文本描述。 另外,按照要求,在回答末尾生成相关问题。最后,在引用他人内容的地方添加引用标识。由于我们的回答主要基于引用的内容,所以需要在相应位置添加引用标识。</think>### 数据仓库核心概念解析 #### 一、数据仓库架构 数据仓库架构主要有两种模式: 1. **自顶向下模式** 采用企业级统一模型,先构建集中式核心数据仓库,再扩展据集市。优势是据一致性高,缺点是实施周期长[^1]。 2. **自底向上模式** 先构建部门级据集市,再整合成企业级数据仓库。优势是实施灵活快速,但需注意后期据整合问题[^1]。 #### 二、ETL流程 ETL(抽取Extract、转换Transform、加载Load)是数据仓库的核心处理流程: ```mermaid graph LR A[源系统] --> B[抽取] B --> C[清洗转换] C --> D[加载到数据仓库] ``` - **抽取**:从业务系统获取原始据 - **转换**:据清洗、格式标准化、业务规则计算 - **加载**:将处理后的据写入目标库 #### 三、维度据建模 维度建模是数据仓库的核心设计方法,包含两类表: 1. **事实表** 存储可度量的业务据(如销售额),包含: - 维度外键(关联维度表) - 度量值(值型业务指标) - 时间戳 2. **维度表** 存储业务描述属性(如产品名称、客户地址),提供分析上下文。 #### 四、星型模型 vs 雪花模型 | 特性 | 星型模型 | 雪花模型 | |--------------|-----------------------------|-----------------------------| | **结构** | 维度表非规范化,直接连事实表 | 维度表规范化,存在层级关系 | | **冗余** | 据冗余高 | 冗余度低 | | **查询性能** | 连接少,查询快[^4] | 需多表连接,性能较低[^4] | | **复杂度** | 设计简单,ETL易维护 | 设计复杂,维护成本高[^4] | | **适用场景** | 敏捷分析,中小型据量 | 据量极大,需极致存储优化 | **星型模型示意图**: ```mermaid graph TD Fact[事实表] --> Dim1[时间维度] Fact --> Dim2[产品维度] Fact --> Dim3[客户维度] ``` **雪花模型示意图**: ```mermaid graph TD Fact[事实表] --> Dim1[时间维度] Fact --> Dim2[产品维度] Dim2 --> SubDim[产品类别维度] Fact --> Dim3[客户维度] Dim3 --> SubDim2[地区维度] ``` #### 五、实际应用建议 1. **模型选择**:优先采用星型模型,除非存储成本成为瓶颈[^4] 2. **架构演进**:建议从据集市(自底向上)起步,逐步扩展为企业级库 3. **性能优化**:对高频查询维度实施轻度雪花化处理
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值