
数仓设计
文章平均质量分 71
数仓的基本设计以及主要知识
高达一号
这个作者很懒,什么都没留下…
展开
-
数据仓库-指标分类与介绍
通过上述两个具体的案例可以看出,绝大多数的统计需求,都可以使用原子指标、派生指标以及衍生指标这套标准去定义。这种情况下,我们就可以考虑将这些公共的派生指标保存下来,这样做的主要目的就是减少重复计算,提高数据的复用性。所有指标的定义,都必须遵循同一套标准,这样能有效的避免指标定义存在歧义,指标定义重复等问题。衍生指标是在一个或多个派生指标的基础上,通过各种逻辑运算复合而成的。,是业务定义中不可再拆解的指标,原子指标的核心功能就是对指标的。派生指标基于原子指标,其与原子指标的关系如下图所示。原创 2024-07-04 20:58:22 · 383 阅读 · 0 评论 -
数据仓库_实时数仓技术选型概览
本文介绍了市面上常见实时数仓方案,并对不同方案的优缺点进行了介绍。在使用过程中我们需要根据自己的业务场景选择合适的架构。另外想说明的是实时数仓方案并不是“搬过来”,而是根据业务“演化来”的,具体设计的时候需要根据自身业务情况,找到最适合自己当下的实时数仓架构。延申思考我们在实时数仓的构建过程中比较大的争议是采用标准分层体系+流计算+数据湖的方案,还是试用基于全场景MPP数据库实现。转载 2023-09-01 14:38:18 · 500 阅读 · 0 评论 -
数据仓库_数仓常见的数据模型
DataVault由Hub(关键核心业务实体)、Link(关系)、Satellite(实体属性)三部分组成,是Dan Linstedt发起创建的一种模型方法论,它是在ER关系模型上的衍生,同时设计的出发点也是为了实现数据的整合,并非为数据决策分析直接使用。以上几种数据模型,互联网行业常用维度模型,能够快速满足业务需求,而在偏传统的行业,如电信、金融等,则更青睐传统数仓的范式建模。星型模型可以理解为,一个事实表关联多个维度表,雪花模型可以理解为一个事实表关联多个维度表,维度表再关联维度表。转载 2023-08-29 08:12:00 · 231 阅读 · 0 评论 -
数据仓库_如何评价一个数据模型的好坏?
转载自 : 如何评价数据模型的好坏?_木东居士的博客-优快云博客最常见提到的有四种:范式、维度、DataVault、Anchor。在传统行业中,范式很流行,在互联网行业中,维度很流行,另外两种就“只闻其名,不见其人”了。如果论这四种方法,在设计思路上的好坏,那么各有千秋。但如果问,那种模型最为成熟,那么恐怕范式和维度就胜出了,而互联网行业几乎只能选择维度建模,因为它的实践经验是最多的。这就有点像软件或者框架的比较,Hadoop就一定好吗?Java就一定优于Python吗?并不是。但Hadoop一定最成熟,转载 2023-08-27 12:26:24 · 229 阅读 · 0 评论 -
数仓设计_维度建模的三种模式
https://blog.youkuaiyun.com/weixin_42464054/article/details/92804678维度建模的三种方式,基本概念记录一下。主要是记下这几张图片!1.1 星型模式。1.2 雪花模式。1.3 星座模式记忆词: 星型模式、星座模式一、维度建模三种模式、1.1 ~星型模式。星型模式(Star Schema)是最常用的维度建模方式。星型模式是以事实表为中心,所有的维度表直接连接在事实表上,像星星一样。...转载 2020-06-06 15:14:11 · 2723 阅读 · 0 评论 -
数据仓库_维度表的两大分类
最近看一篇文章对维度表进行了分类,记录一下。维度表主要分为两类高基数维度表和低基数维度表。原创 2023-08-29 09:30:48 · 1518 阅读 · 0 评论 -
数仓设计_数仓中的三种事实表
事实表有三种类型 :转载 2023-08-28 13:44:22 · 476 阅读 · 0 评论 -
数据仓库_数据仓库_缓慢渐变维度实现的几种思路
数仓缓慢渐变维度表设计缓慢渐变维度:维度数据会随着时间发生变化,变化速度比较缓慢,这种维度数据通常称作缓慢渐变维; 由于数据仓库需要追溯历史变化,尤其是一些重要的数据,所以历史状态也需要采用一定的措施进行保存。大致分为以下几种实现思路1) 全量快照:每天保存当前数据的全量快照数据,该方案适合数据量较小的维度,使用简单的方式保存历史状态。...原创 2020-02-21 00:03:23 · 1413 阅读 · 0 评论 -
数据仓库_缓慢渐变维_拉链表(全揭秘)
这篇文章我们主要讲解下以下几个点什么是拉链表,用于什么样的场景 拉链表的示例 如何获取某一天的历史状态 如何在使用维度拉链表并使用代理键的前提下,构建含维度代理键的事实表1.什么是拉链表,用于什么样的场景 当维度数据发生变化时,将旧数据置为失效,将更改后的数据当作新的记录插入到维度表中,并开始生效,这样能够记录数据在某种粒度上的变化历史。2.拉链...原创 2020-02-20 23:53:14 · 2568 阅读 · 0 评论 -
数据仓库_拉链表_拉链表实现思路
本篇文章,主要讲解1.什么是拉链表 以及 拉链表示例2.不同原始表情况下,拉链表如何构建。。。。。。原创 2020-03-13 20:44:36 · 5718 阅读 · 1 评论 -
数据仓库_LT,留存,回访的设计思路
今天面试问到了一个问题,假设我们的用户信息是天级别统计的,那么如果计算多天的留存与回访就需要扫描多个分区,这样计算资源比较多,如何进行优化。首先要介绍一下,留存,回访,lt 这3个基本概念。原创 2023-07-26 11:03:18 · 866 阅读 · 0 评论 -
Hive_数据仓库_数据类型的选择
Hive 有很多的基础数据类型,在实际构建数仓的这么多数据类型,我们该如何选择呢?如果你的公司足够大,那么建议参照以下几条建议:浮点数建议:1) Hive 中Double类型需要慎用, Hive 中Double类型存在失真。例如: 原始数据是 10000, Hive 中10000 可能为10000.00012) 为了浮点数越界,或者失真的问题,建...原创 2020-03-31 22:25:33 · 991 阅读 · 0 评论 -
数据仓库_数据仓库 维度表命名规范
平时我们在做数据仓库的时候,一个好的数据仓库在表的名称上是有一定规范的,下面介绍下这些规范。后缀命名:_i => increase 按天增量的维度表_d => day 按天分区的快照表_a => all 不做分区的全量维度表...原创 2020-02-20 23:25:14 · 3931 阅读 · 2 评论 -
Hive/数据仓库_Hive 中如何生成代理键
前提: 数仓中的维度,事实表技术提倡用代理键代替实体键,下面我们讲解下代理键的概念,以及Hive中如何生成代理键 (自增列)代理键 : 维度表中必须有一个能够唯一标识一行记录的列,通过该列维护维度表与事实表之间的关系,一般在维度表中业务主键符合条件可以当作维度主键。补充: 是由数据仓库处理过程中产生的,与业务本身无关的, 唯一标...原创 2020-02-20 23:40:11 · 3254 阅读 · 7 评论