大数据之使用datax完成rds到hdfs,hdfs到rds的导入导出

本文介绍在京东云环境下使用DataX工具进行数据仓库搭建的过程,包括数据导入导出、数据分层及分区处理。DataX能高效同步MySQL、HDFS等数据源,文章详细展示了JSON配置、命令行操作及Hive SQL语句。

1、前言

      mysql等数据存储技术,随着海量数据的不断增加,已经不能满足正常的业务需求。大数据技术带来的数据仓库为此带来很多解决方案。今天基于京东云的环境简单的搭建一个数据数据仓库,使用阿里出品的datax完成数据的导入和导出。

2、导入导出工具简单介绍

    DataX 是阿里巴巴集团内被广泛使用的离线数据同步工具/平台,实现包括 MySQL、Oracle、SqlServer、Postgre、HDFS、Hive、ADS、HBase、TableStore(OTS)、MaxCompute(ODPS)、DRDS 等各种异构数据源之间高效的数据同步功能。datax部分功能是借助于python完成脚本的。

    Sqoop:是一款Apache的开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql...)间进行数据的传递,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。

    Kattle:Kettle是一款国外开源的ETL工具,纯java编写,可以在Windows、Linux、Unix上运行,数据抽取高效稳定。

由于京东云提供了datax,笔者就是datax完成数据的导入导出

3、Datax内部数据类型和Mysql的对应关系

4、大数据的分层

ODS(Operational Data Store):基础数据层、元数据层,用来存储基础数据;

DWD(data warehouse detail):数据清洗层,用来去除空值,脏数据,超过极限范围的数据

DWS(data warehouse service): 合成宽表,用来聚合DWD层的数据。

ADS(Application Data Store):出报表结果,用来做分析处理同步到RDS数据库里边

5、案例流转图

本案例只进行导出和导出,会忽略DWD和DWS层,会将ODS和ADS当成一个数据层处理

6、创建基础数据层(ods层)

  在hi

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

智_永无止境

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值