
数据仓库
rolin-刘瑞
技术GEEK
展开
-
数据仓库之etl
ETL,Extraction-Transformation-Loading的缩写,中文名称为数据抽取、转换和加载。大多数据仓库的数据架构可以概括为:数据源-->ODS(操作型数据存储)-->DW-->DM(data mart)ETL贯穿其各个环节。一、数据抽取: 可以理解为是把源数据的数据抽取到ODS或者DW中。转载 2017-09-04 16:46:13 · 6638 阅读 · 1 评论 -
维度(DM)表、事实(FT)表和聚合(AG)表
转载 2018-04-18 12:30:18 · 7503 阅读 · 0 评论 -
理解维度数据仓库——事实表、维度表、聚合表
事实表在多维数据仓库中,保存度量值的详细值或事实的表称为“事实表”。一个按照州、产品和月份划分的销售量和销售额存储的事实表有5个列,概念上与下面的示例类似。 SateProductMouthUnitsDollarsWAMountain-100J转载 2018-04-18 14:38:01 · 31359 阅读 · 1 评论 -
漫谈数据仓库之拉链表(原理、设计以及在Hive中的实现)
0x00 前言本文将会谈一谈在数据仓库中拉链表相关的内容,包括它的原理、设计、以及在我们大数据场景下的实现方式。全文由下面几个部分组成:先分享一下拉链表的用途、什么是拉链表。通过一些小的使用场景来对拉链表做近一步的阐释,以及拉链表和常用的切片表的区别。举一个具体的应用场景,来设计并实现一份拉链表,最后并通过一些例子说明如何使用我们设计的这张表(因为现在Hive的大规转载 2018-04-25 18:40:59 · 6433 阅读 · 0 评论 -
漫谈数据仓库之维度建模
0x00 前言下面的内容,是笔者在学习和工作中的一些总结,其中概念性的内容大多来自书中,实践性的内容大多来自自己的工作和个人理解。由于资历尚浅,难免会有很多错误,望批评指正!概述数据仓库包含的内容很多,它可以包括架构、建模和方法论。对应到具体工作中的话,它可以包含下面的这些内容:以Hadoop、Spark、Hive等组建为中心的数据架构体系。各种数据建模方法,如维度建模转载 2018-04-25 18:42:50 · 7267 阅读 · 0 评论 -
星型模型和雪花型模型比较
每个数据仓库都包含一个或者多个事实数据表。事实数据表可能包含业务销售数据,如现金登记事务所产生的数据,事实数据表通常包含大量的行。事实数据表的主要特点是包含数字数据(事实),并且这些数字信息可以汇总,以提供有关单位作为历史的数据,每个事实数据表包含一个由多个部分组成的索引,该索引包含作为外键的相关性维度表的主键,而维度表包含事实记录的特性。事实数据表不应该包含描述性的信息,也不应该包含除数字度量字...转载 2018-05-14 10:54:58 · 9033 阅读 · 0 评论 -
数据质量评估标准
数据质量是保证数据应用的基础,它的评估标准主要包括四个方面,完整性、一致性、准确性、及时性。评估数据是否达到预期设定的质量要求,就可以通过这四个方面来进行判断。完整性完整性指的是数据信息是否存在缺失的状况,数据缺失的情况可能是整个数据记录缺失,也可能是数据中某个字段信息的记录缺失。不完整的数据所能借鉴的价值就会大大降低,也是数据质量更为基础的一项评估标准。数据质量的完整性比较容易去评估,一般我们可...转载 2018-05-31 21:44:55 · 34365 阅读 · 0 评论 -
数仓建模:范式建模+维度建模
范式建模 Inmon提出的集线器的自上而下(EDW-DM)的数据仓库架构。操作型或事务型系统的数据源,通过ETL抽取转换和加载到数据仓库的ODS层,然后通过ODS的数据建设原子数据的数据仓库EDW,EDW不是多维格式的,不方便上层应用做数据分析,所以需要通过汇总建设成多维格式的数据集市层。优势:易于维护,高度集成;劣势:结构死板,部署周期较长 范式建模应用在EDW层 一个符合第三范式的关...转载 2019-03-28 15:08:11 · 9653 阅读 · 0 评论 -
浅谈ROLAP、MOLAP和HOLAP区别
对没有使用过数据仓库的人,对这三个概念确实是有点混淆不清。包括我自己本身不是做数据仓库出身,所以实际上是从实践出发,理论基础是有点匮乏的。一、基本概念1. OLAPOLAP(on-Line Analysis Processing)是使分析人员、管理人员或执行人员能够从多角度对信息进行快速、一致、交互地存取,从而获得对数据的更深入了解的一类软件技术。OLAP的核心概念是“维”(di...转载 2019-05-21 16:44:15 · 6660 阅读 · 0 评论