
大数据环境下数据仓库的实践
文章平均质量分 92
基于维度建模理论,结合Hadoop生态下的大数据环境,建立数据仓库的理论与实践。
浪菜叶
数据仓库实践者
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
大数据环境下数据仓库的实践(五)—— ETL之落地层同步
准确地来说,在大数据里很多时候是ELTL,但是我们仍然保留历史的称呼用ETL来描述从抽数到提供应用之间的所有数据处理步骤。ETL的第一步总是避不开从业务源系统抽取数据到落地层(Staging)。实践中,大部分时候大厂都用ODS来命名,歪果仁通常称为STG,这里只是叫法不同,作用是一样的——一次读取以缓冲对源系统数据的访问。EL工具市面上比较常用的是sqoop和dataX,也有通过binlog消...原创 2019-07-02 11:43:47 · 986 阅读 · 0 评论 -
大数据环境下数据仓库的实践(三)—— 数据仓库的组成部分
数据仓库从全局来看会涉及到四大块:业务源系统、ETL系统、数据应用层、数据消费层。业务源系统数据仓库中数据的来源是各个业务源系统。严格说来业务源系统不属于数据仓库的范畴。但是如果业务系统模型设计不好,对后续的数据处理将极为不利,甚至会极大的增加数据仓库建设的投入成本。现状往往是业务系统的设计人员水平参差不齐,业务系统设计千奇百怪,甚至缺乏第三范式的考量,缺乏基本的审计字段(cre...原创 2019-05-26 19:16:38 · 1105 阅读 · 0 评论 -
大数据环境下数据仓库的实践(二)—— Hadoop基础
Hadoop生态链已经成为如今大数据实际意义上的实现。因此在Hadoop生态下建设数据仓库需要了解一些Hadoop的基本原理。这会对我们将来为什么这么设计数据仓库提供一些解答。Hadoop最基础的两块是它的分布式文件存储(HDFS)和MapReduce计算模型(MR)。通过大数据界的"Hello World"——统计一篇文章中每个单词出现的次数,这样一个案例来跟踪一下Hadoop是怎么做的。...原创 2019-05-24 23:41:52 · 425 阅读 · 0 评论 -
大数据环境下数据仓库的实践(一)—— 绪论
关于数据仓库,在维基百科中将它定义为用于报表和数据分析的系统,是商务智能(Business Intelligence)的核心部分。在数据仓库诞生之初,它只被设计成针对管理层所需要的决策支持系统,并不对业务方(这里指各应用系统)提供数据支持。然而在大数据环境的背景下,当Hadoop生态已然成为大数据现实意义上的载体,以Hive为基础的数据仓库已经不能仅仅只提供决策支持的需求了——它需要同时满足部...原创 2019-05-24 06:32:16 · 360 阅读 · 0 评论