
数仓
文章平均质量分 92
desmond_retain
这个作者很懒,什么都没留下…
展开
-
深入讲解拉链表,还怕面试官问?
原文链接:深入讲解拉链表,还怕面试官问?前言今天给大家分享一个面试中经常会被问到的拉链表,我在上篇文章中提出来一个需求如果不知道的请去→数仓缓慢变化维深层讲解查看,好,废话不多说我们直接开始。提出的问题会在末尾讲解。一、拉链表介绍(百度百科)拉链表:维护历史状态,以及最新状态数据的一种表,拉链表根据拉链粒度的不同,实际上相当于快照,只不过做了优化,去除了一部分不变的记录,通过拉链表可以很方便的还原出拉链时点的客户记录二、拉链表场景数据仓库的数据模型设计过程中,经常会遇到这样的需求:表中的部转载 2021-08-26 10:08:05 · 312 阅读 · 0 评论 -
数仓缓慢变化维深度讲解
前言维度缓慢变化为SCD(Slowly Changing Dimensions)一些维度表的数据不是静态的,而是会随着时间而缓慢地变化(这里的缓慢是相对事实表而言,事实表数据变化的速度比维度表快,如果还不知道什么是事实表和维度表请看→数仓模型设计详细讲解)把处理维度表数据历史变化的问题,称为缓慢变化维问题,简称SCD问题。举个例子:例如:用根据用户维度,统计不同出生年份的消费金额占比。(80后、90后、00后)。而期间,用户可能去修改用户数据,例如:将出生日期改成了 1992年。此时,用户维度表就发转载 2021-08-25 14:04:07 · 164 阅读 · 0 评论 -
数据仓库分层架构深度讲解
原文地址:数据仓库分层架构深度讲解前言我们在数仓项目的时候往往是需要将它分层的,但是为什么分层你真正的了解过吗,那它分层的好处又是什么呢。好我们今天就针对这个话题进行讲解。一、为什么要分层分层的主要原因是在管理数据的时候,能对数据有一个更加清晰的掌控,详细来讲,主要有下面几个原因:清晰数据结构:每一个数据分层都有它的作用域,这样我们在使用表的时候能更方便地定位和理解。方便数据血缘追踪:简单来说,我们最终给业务呈现的是一个能直接使用业务表,但是它的来源有很多,如果有一张来源表出问题了转载 2021-08-24 11:07:29 · 380 阅读 · 0 评论 -
数仓模型设计详细讲解
原文地址:数仓模型设计详细讲解前言今天给大家分享下数仓中的模型设计,一个好的数仓项目首先看一下它的架构以及他所用到的模型,它们使用的模型也都是非常巧妙的,好了,我们话不说到直接开始。一、维度建模基本概念维度模型是数据仓库领域大师Ralph Kimall所倡导,他的《数据仓库工具箱》,是数据仓库工程领域最流行的数仓建模经典。维度建模以分析决策的需求出发构建模型,构建的数据模型为分析需求服务,因此它重点解决用户如何更快速完成分析需求,同时还有较好的大规模复杂查询的响应性能。维度建模是专门应用于分析型转载 2021-08-23 22:13:31 · 174 阅读 · 0 评论