从传统数仓到大数据平台,MPP数据集市,Hadoop集群,还有混合架构数仓,一直在不断演进,但是万变不离其宗,大框架和方法论终归是那一套。所以本文就来分享数仓建设的方法论,文中针对的例子是大数据环境下的数据仓库建设,从目前互联网行业数据的采集,存储,同步以及任务调度与监控方面阐述了相关技术,还专门针对数据仓库的维度建模技术做了详细的介绍。
先从大数据数据仓库建设的整体架构说起。 下图是数据仓库的逻辑分层架构:
