
HAWQ
testguess
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
HAWQ取代传统数仓实践(一)——为什么选择HAWQ
为了跟上所谓“大数据”技术的脚步,从两年前开始着手实践各种SQL-on-Hadoop技术,从最初的Hive,到SparkSQL,再到Impala,进行了一系列ETL、CDC、多维数据仓库、OLAP的实验。作为一名从业20年以上的DBA,从数据库的角度看,我的总体感觉是这些技术与传统的DBMS相比,功能不完善,性能差距很大,甚至很难找到一个可行的、相对完备的Hadoop数据仓库解决方案。这使我在实际...原创 2019-04-05 15:59:53 · 329 阅读 · 0 评论 -
HAWQ取代传统数仓实践(二)——搭建示例模型(MySQL、HAWQ)
HAWQ取代传统数仓实践(二)——搭建示例模型(MySQL、HAWQ)一、业务场景 本系列实验将应用HAWQ数据库,为一个销售订单系统建立数据仓库。本篇说明示例的业务场景、数据仓库架构、实验环境、源和目标库的建立过程、测试数据和日期维度的生成。后面陆续进行初始数据装载、定期数据装载、调度ETL工作流自动执行、维度表技术、事实表技术、OLAP和数据可视化等实验。目的是演示以HAWQ代替传统数据...原创 2019-04-05 16:25:31 · 393 阅读 · 0 评论 -
HAWQ取代传统数仓实践(三)——初始ETL(Sqoop、HAWQ)
HAWQ取代传统数仓实践(三)——初始ETL(Sqoop、HAWQ)一、用sqoop用户建立初始抽取脚本 本示例要用Sqoop将MySQL的数据抽取到HDFS上的指定目录,然后利用HAWQ外部表功能将HDFS数据文件装载到内部表中。表1汇总了示例中维度表和事实表用到的源数据表及其抽取模式。源数据表HDFS目录对应EXT模式中的表抽取模式customer/data/...原创 2019-04-05 17:50:37 · 299 阅读 · 0 评论 -
HAWQ取代传统数仓实践(四)——定期ETL(Sqoop、HAWQ)
HAWQ取代传统数仓实践(四)——定期ETL(Sqoop、HAWQ)一、变化数据捕获(CDC) 初始装载只在数据仓库开始使用前执行一次,然而,必须要周期性地执行装载源数据过程。与初始装载不同,定期装载一般都是增量的,并且需要捕获并且记录数据的变化历史。1. 识别数据源与装载类型 定期装载首先要识别数据仓库的每个事实表和每个维度表用到的并且是可用的源数据。然后要决定适合装载的抽取模式和维...原创 2019-04-05 18:30:10 · 299 阅读 · 0 评论 -
HAWQ取代传统数仓实践(五)——自动调度工作流(Oozie、Falcon)
HAWQ取代传统数仓实践(五)——自动调度工作流(Oozie、Falcon) 一旦数据仓库开始使用,就需要不断从源系统给数据仓库提供新数据。为了确保数据流的稳定,需要使用所在平台上可用的任务调度器来调度ETL定期执行。调度模块是ETL系统必不可少的组成部分,它不但是数据仓库的基本需求,也对项目的成功起着举足轻重的作用。本篇说明如何使用HDP中的Oozie和Falcon服务实现ETL执行自动化。...原创 2019-04-05 19:05:50 · 430 阅读 · 0 评论