风满楼i
CC
展开
-
数仓2022
一、数仓 (1)维表数据量太大怎么处理? ① 水平拆分&垂直拆分 比如客户维表,将国际型客户,企业客户,个人客户拆开; ② 覆盖原始数据,并不保留之前的数据; ③ 微型维度:通过将一部分不稳定的属性从主维度中移出,并将它们放置到拥有自己代理键的新表中来实现的。这些属性相互之间没有直接关联,不存在自然键。通过为每个组合创建新行的一次性过程来加载数据。 (2)增量与全量同步 ① 在传统的数据整合方案中,合并技术大多采用merge方式( update+insert)。当前流行的大数据平台基本都不支持upd原创 2023-02-12 14:47:31 · 500 阅读 · 0 评论 -
分享2021
大数据面试题分享_美团数仓面试题深度剖析: 在数仓中如何搭建一个“合适且完美”的模型? 高内聚低耦合;核心模型和拓展模型分离;公共处理层逻辑下沉且单一; 成本和性能平衡;数据可回滚;数据一致性(规范);命名清晰且容易理解 ...原创 2021-08-24 21:57:22 · 145 阅读 · 0 评论 -
ETL
ETL Extract-Transform-Load的缩写,用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程 Informatica Kettle原创 2021-03-15 20:58:43 · 104 阅读 · 0 评论 -
(废弃)数据仓库建模方法
数据仓库建模方法 范式建模法,维度建模法,实体建模法 范式建模法(Third Normal Form,3NF)原创 2021-03-17 21:49:31 · 174 阅读 · 0 评论 -
(废弃)大数据数仓从入门到精通
数仓架构详解 建模阶段详解 建模阶段: 逻辑建模:建模工具是PD(PowerDesigner) 物理建模:书写建库,建表语句 数据仓库分层:ODS层、DWD层、DWS层、DM层 事实表、维度表 事实表:用于记录事实上产生数据的表,记录其动作 维度表:对于事实表的说明 星型模型:适用于业务简单、效率高,但数据有冗余; 雪花模型:适用的场景与星型模型相反 星座模型 元数据管理 数仓示例 销售系统:客户表、订单表、产品表 (1) 模型设计:PD (2) 物理实现 ...原创 2021-03-29 21:48:53 · 210 阅读 · 1 评论 -
大数据之路:阿里巴巴大数据实践(数据模型篇)
思维导图 第8章 大数据领域建模综述 一、典型的数据仓库建模方法论 1、ER模型 特点:需要全面了解企业业务和数据、实施周期非常长、对建模人员的能力要求非常高。 2、维度模型 步骤:选择需要进行分析决策的业务过程、选择粒度、识别维表、选择事实(确定分析需要衡量的指标) 3、Data Vault模型 Data Vault模型由以下几部分组成: Hub:是企业的核心业务实体,由实体key、数据仓库序列代理键、装载时间、数据来源组成; Link:代表Hub之间的关系。这里与ER模型最大的区别是将关系作为一个独立原创 2021-07-20 21:54:37 · 717 阅读 · 3 评论 -
离线和实时大数据开发实战
在数据仓库的实际工作中,80%的时间会花费在任务调度、数据清洗和业务梳理上,只有20%的时间会投入到数据挖掘上。 第一篇 数据大图和数据平台大图 第1章 数据大图 第2章 数据平台大图 1.OLTP、OLAP 2.建模方法论:Kimball与Inmon对比 Kimball维度建模的主题以星形架构为主,主题和主题之间则用一致性维和企业总线体系架构来保证数据仓库的集成和一致性。 如果是 Inmon 模式,我们需要将数据库拆分成 用户实体表、成交日志实体表、用户与成交日志关系表等多个子模块。 如果是 Kimb原创 2021-06-15 22:12:06 · 1155 阅读 · 4 评论