
数据库/数据仓库
数据库/数据仓库
LittleMagics
Flinker @ JD.com
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
建设实时数仓之前的思考与方案记录
前言随着这次新冠疫情带来的机遇,我司业务飞速增长,实时数仓的建设已经提上了日程。虽然还没有正式开始实施,但是汲取前人的经验,做好万全的准备总是必要的。本文简单松散地记录一下想法,不涉及维度建模方法论的事情(这个就老老实实去问Kimball他老人家吧)。动机随着业务快速增长,传统离线数仓的不足暴露出来:运维层面——所有调度任务只能在业务闲时(凌晨)集中启动,集群压力大,耗时...原创 2020-03-20 22:07:53 · 872 阅读 · 0 评论 -
漫谈数据库中的join
Prologuejoin是我们这些整天与数据打交道的人绕不开的一个词,不管是在传统的关系型数据库,还是在大数据领域的数据仓库/数据湖中,join都是常客。特别是对于OLAP业务而言,几乎每个查询都需要用join来建立表之间的关系,地位非常之重要。本文就来简单讲解一些主要的join算法(真的非常简单哦)。Nested-loop join & Block nested-lo...原创 2019-08-01 22:14:53 · 582 阅读 · 0 评论 -
Canal+Camus快速采集MySQL Binlog到数据仓库
写了很久原理分析和源码阅读方面的文章,对实操类型的总结都有些生疏了,这次放个简单暴力的吧。数据仓库的同步方法我们的数据仓库长久以来一直使用天级别的离线同步方法:采用Sqoop或DataX按天定时获取各个MySQL表的全量或增量数据,然后载入到Hive里对应的各个表中。这种方法门槛低,容易操作,在数仓建设阶段能够快速启动。但是随着时间的推移,它暴露出了一些缺点:从MySQL获...原创 2019-04-09 19:28:29 · 942 阅读 · 2 评论 -
迟到的Kudu设计要点面面观(之更加迟到的后篇)
前篇传送门:https://www.jianshu.com/p/5ffd8730aad8目录Prologue(见前篇)Kudu的初衷(见前篇)集群架构与共识保证(见前篇)表与分区的设计(见前篇)底层存储设计细节(见前篇)事务与数据一致性与Impala、Spark集成Benchmarking当前的主要不足简单调优方法事务与数据一致性Kudu支持单行事务...原创 2019-07-19 21:12:07 · 677 阅读 · 0 评论 -
聊聊数据仓库中的缓慢变化维度(SCD)
虽然我的主业是实时计算和批量计算,并不是数仓,但是在日常工作中绝对少不了与数仓打交道。并且我也算是参与过离线数仓建设的,维度建模的基础还是不能忘。本文就作为一篇抄书笔记吧。SCD简介顾名思义,缓慢变化维度(slowly changing dimension, SCD)就是数据仓库维度表中,那些随时间变化比较不明显,但仍然会发生变化的维度。考虑以下两个情境:在员工维度表中,某...原创 2019-12-11 22:08:46 · 2585 阅读 · 0 评论