
数据仓库
flam_e
这个作者很懒,什么都没留下…
展开
-
(转)数据仓库之拉链表(原理、设计以及在Hive中的实现)
作者:木东居士链接:https://www.jianshu.com/p/799252156379来源:简书著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。0x00 前言本文将会谈一谈在数据仓库中拉链表相关的内容,包括它的原理、设计、以及在我们大数据场景下的实现方式。全文由下面几个部分组成:先分享一下拉链表的用途、什么是拉链表。通过一些小的使用场景来对拉链表...转载 2019-11-11 17:23:02 · 430 阅读 · 1 评论 -
mysql binlog笔记
概要在大数据时代,数据研发人员总是想把各类数据采集到我们的数据仓库。最典型的方案是日志收集方案: flume采集文件,转发到kafka,再使用storm、spark写到hdfs。但是实际场景中,我们的数据源不止文件,还有mysql这类db数据。众所周知,mysql是可以开启binlog的,也就是说我们对db的每个操作都可以通过binlog解析得到。所以我们实时解析mysql的binlog文件,...原创 2019-11-11 17:21:05 · 168 阅读 · 0 评论 -
数仓建模方法论——ER建模方法
#范式:一个实体的某个属性保存多个值,将这样的多值属性分离为一个实体。#ER建模遇到的问题:(1)如果存在一个实体与其它实体之间存在两个或更多的一对多联系,很可能存在扇形陷阱问题。扇形陷阱问题可以通过改变实体间的联系次序,从而重新构建模型解决。(2)如果在实体联系的通路上存在一个或者多个参与性约束最小值为零的情况,很可能存在深坑陷阱问题,深坑陷阱问题可以通过重新添加被遗漏的联系解决。#...原创 2019-11-11 17:18:19 · 2281 阅读 · 0 评论 -
1数据仓库生命周期_技术路线(读书笔记)
1. 技术路径3.1技术架构设计3.1.1后台架构1. ETL流程ETL处理流程主要由4个步骤:从源系统中抽取数据(Extract)、清洗(cleaning)、一致化转化(conforming)、数据提交(delivering)到呈现服务器上,以及对ETL过程和后台环境进行管理(managing)。过程中,需要进行的工作包括:对多种类型的源数据格式的理解,数据探...原创 2019-11-11 17:16:45 · 1414 阅读 · 0 评论 -
2数据仓库生命周期_数据路线(读书笔记)
ssss原创 2019-11-11 17:15:11 · 1469 阅读 · 0 评论