大数据最全DataX - 全量数据同步工具_datax工具,2024年最新大数据开发组件化架构实践

img
img

网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。

需要这份系统化资料的朋友,可以戳这里获取

一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!


运行结果: 


![](https://img-blog.csdnimg.cn/direct/671436e069704ce5ad999ddc13c77e53.png)


当出现上面的结果说明安装成功,这里我们用的是 DataX 自带的一个测试作业,它是一个 json 格式的文件,之后我们的 DataX 作业也是通过自己 编写 json 文件来实现。


## 3、DataX 的使用


### 3.1、DataX 任务提交命令


        DataX的使用十分简单,用户只需根据自己同步数据的数据源和目的地选择相应的Reader和Writer,并将Reader和Writer的信息配置在一个json文件中,然后执行如下命令提交数据同步任务即可,就像我们安装时测试执行 DataX 任务的操作一样:



python /opt/module/datax/bin/datax.py /opt/module/datax/job/job.json


### 3.2、DataX 配置文件格式


可以通过下面这个命令来查看 DataX 配置文件模板:



-r 代表 reader -w 代表 writer

python bin/datax.py -r mysqlreader -w hdfswriter


        配置文件模板如下,json最外层是一个job,job包含setting和content两部分,其中setting用于对整个job进行配置,content用户配置数据源和目的地。


![](https://img-blog.csdnimg.cn/direct/80dbd7d172aa49db9d7152f82bf33861.png)


Reader和Writer的具体参数可参考官方文档,地址:


[https://github.com/alibaba/DataX/blob/master/README.md]( )


![](https://img-blog.csdnimg.cn/direct/0415aafa45af44c8823e95a95ee5c4e6.png)


所以,如果我们需要自定义 DataX 任务的时候,就需要打开官网的 reader 和 writer 文档,查看需要配置哪些参数,接下来我们就来练习一下:


## 4、使用案例


### 4.1、MySQL -> HDFS


从 MySQL 写入到 HDFS ,我们就需要去官网查看 MySQLReader 和 HDFSWriter 的内容:



> 
> 简而言之,MysqlReader通过JDBC连接器连接到远程的Mysql数据库,并根据用户配置的信息生成查询SELECT SQL语句,然后发送到远程Mysql数据库,并将该SQL执行返回结果使用DataX自定义的数据类型拼装为抽象的数据集,并传递给下游Writer处理。
> 
> 
> 对于用户配置Table、Column、Where的信息,MysqlReader将其拼接为SQL语句发送到Mysql数据库;对于用户配置querySql信息,MysqlReader直接将其发送到Mys
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值