- 博客(9)
- 资源 (1)
- 收藏
- 关注
转载 (转)数据仓库之拉链表(原理、设计以及在Hive中的实现)
作者:木东居士 链接:https://www.jianshu.com/p/799252156379 来源:简书 著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。 0x00 前言 本文将会谈一谈在数据仓库中拉链表相关的内容,包括它的原理、设计、以及在我们大数据场景下的实现方式。 全文由下面几个部分组成: 先分享一下拉链表的用途、什么是拉链表。 通过一些小的使用场景来对拉链表...
2019-11-11 17:23:02
444
1
原创 mysql binlog笔记
概要 在大数据时代,数据研发人员总是想把各类数据采集到我们的数据仓库。最典型的方案是日志收集方案: flume采集文件,转发到kafka,再使用storm、spark写到hdfs。但是实际场景中,我们的数据源不止文件,还有mysql这类db数据。 众所周知,mysql是可以开启binlog的,也就是说我们对db的每个操作都可以通过binlog解析得到。所以我们实时解析mysql的binlog文件,...
2019-11-11 17:21:05
187
原创 数仓建模方法论——ER建模方法
#范式: 一个实体的某个属性保存多个值,将这样的多值属性分离为一个实体。 #ER建模遇到的问题: (1)如果存在一个实体与其它实体之间存在两个或更多的一对多联系,很可能存在扇形陷阱问题。扇形陷阱问题可以通过改变实体间的联系次序,从而重新构建模型解决。 (2)如果在实体联系的通路上存在一个或者多个参与性约束最小值为零的情况,很可能存在深坑陷阱问题,深坑陷阱问题可以通过重新添加被遗漏的联系解决。 #...
2019-11-11 17:18:19
2305
原创 1数据仓库生命周期_技术路线(读书笔记)
1. 技术路径 3.1技术架构设计 3.1.1后台架构 1. ETL流程 ETL处理流程主要由4个步骤:从源系统中抽取数据(Extract)、清洗(cleaning)、一致化转化(conforming)、数据提交(delivering)到呈现服务器上,以及对ETL过程和后台环境进行管理(managing)。 过程中,需要进行的工作包括:对多种类型的源数据格式的理解,数据探...
2019-11-11 17:16:45
1440
原创 常用docker命令
docker ps -a #查看docker进程 docker run -d #后台启动 docker restart #重启exit的容器 docker pull {name} :[latest] #拉取镜像,版本号,默认latest docker rm container_id #移除容器 docker exec -it container_id bash ...
2019-01-15 16:02:37
113
原创 centos7下docker搭建cdh
一.安装jdk rpm -qa|grep jdk yum -y install java-1.8.0-openjdk* 设置环境变量: jhometip='# add JAVA_HOME' jhomescript='export JAVA_HOME=/etc/alternatives/java_sdk_1.8.0' sudo echo $jhometip >> /...
2019-01-08 15:42:47
2357
原创 快速排序
快速排序的基本思想: 通过一趟排序将待排序记录分割成独立的两部分,其中一部分关键字均比另一部分关键字小; 分别对这两部分继续进行排序,直到整个序列有序。 快速排序的示例: (a)一趟排序的过程: (b)排序的全过程 把整个序列看做一个数组,把第零个位置看做中轴,和最后一个比,如果比它小交换,比它大不做任何处理;交换了以后再和小的那端比...
2018-12-09 22:10:36
132
原创 开始写博客啦
开始写博客啦 还是要好好立足本专业,本宝宝要好好做一个程序员了…… 如今的坑都是之前在学校里天真的想法埋的…… 都是泪…… Mark一下。
2016-10-18 15:20:41
212
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人