DataX

设计理念:为了解决异构数据源离线同步工具,datax将网状的同步链路变成了星型数据链路,datax作为中间传载体去连接各种数据源,当需要对接一种新的数据源的时候只需要将新的数据源对接到datax,就能将已有的数据源进行无缝的对接

二、datax3.0框架设计

    datax作为离线数据同步框架,采用了framework+plugin架构构建。将数据源读取和写入抽象成reader和writeer插件,纳入到整个数据同步框架中。
    Reader:负责数据采集,将数据发送给framework
    writeer:负责数据写入,负责从framework中取数据
    framework:用于连接两者,作为数据传输通道,并处理缓冲,流控,并发数据转换等技术问题。

三、datax3.0插件体系

前提:一定要安装有jdk和python环境
去官网下载datax解压
替换jdbc驱动包(/plugin/reader/mysqlreader/libs)对应路径下的驱动包为对应的版本
编辑插件maven打包放到writer目录下
任务脚本生成工具包(可生成job任务)在datax/job下生成job任务配置json文件
编辑配置数据同步的json文件
./datax.py …/job/abc.json
定时执行 0 1 * * * nohup python /datax/bin/datax.py …/job/abc.json

          • ./etc/profile; /usr/bin/pyton /hone/datax/bin/datax.py /json文件路径/abc.json
            做曾量同步时要指定数据的范围grnt_create>=‘now()-1day’ and gmt_create<=‘now()’

hdfs_to_clickhouse

{
    "job":{
        "setting":{
            "speed":{
                "channel":3
            }
        },
        "content":[
            {
                "reader":{
                    "name":"hdfsreader",
                    "parameter":{
                        "path":"/user/hive/warehouse/test.db/nnn/*",
                        "defaultFS":"hdfs://ip:8020",
                        "column":[
                            "*"
                        ],
                        "fileType":"orc",
                        "encoding":"UTF-8",
                        "fieldDelimiter":"\u0001"
                    }
                },
                "writer":{
                    "name":"clickhousewriter",
                    "parameter":{
                        "batchByteSize":134217728,
                                               "batchSize":65536,
                                               "column":[
                                                                              "data_id","data_name"
                                                                              ],
                                               "connection":[
                                                      {
                                                              "jdbcUrl":"jdbc:clickhouse://ip:8123/default",
                                                              "table":["dim_table_name"]
                                                      }
                                               ],
                                               "dryRun":false,
                                               "password":"123",
                                               "postsql"[],
                                               "preSql":[],
                                               "username","default",
                                               "wirteMode":"insert"
                    }
                }
            }
        ]
    }
}
 
 
### DATAX数据同步工具介绍 DataX是阿里巴巴开源的一个异构数据源离线同步工具,致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。它采用框架加插件的架构,支持多种数据源的读写,并且具有良好的扩展性,可以方便地添加新的数据源插件。 ### DATAX使用方法 DataX的使用主要通过JSON配置文件来指定数据同步的源端、目的端以及同步的规则等信息。以下是一个简单的示例,展示从MySQL数据源同步数据到文件系统的配置文件: ```json { "job": { "content": [ { "reader": { "name": "mysqlreader", "parameter": { "username": "your_username", "password": "your_password", "column": [ "id", "name", "age" ], "connection": [ { "jdbcUrl": [ "jdbc:mysql://localhost:3306/your_database" ], "table": [ "your_table" ] } ] } }, "writer": { "name": "txtfilewriter", "parameter": { "path": "/your/output/path", "fileName": "output.txt", "writeMode": "truncate", "fieldDelimiter": "," } } } ], "setting": { "speed": { "channel": "1" } } } } ``` 将上述配置文件保存为一个JSON文件(例如`job.json`),然后在命令行中执行以下命令启动同步任务: ```bash python bin/datax.py job.json ``` ### DATAX与Otter对比 - **功能特点**: - **DataX**:是一个离线的数据同步工具,支持多种异构数据源之间的数据迁移,适用于批量数据的同步场景,例如将数据库中的历史数据同步到数据仓库进行分析。它侧重于数据的批量搬运,对于数据的实时性要求不高。 - **Otter**:基于数据库增量日志解析,能够准实时地将数据同步到本机房或者异地机房的MySQL、Oracle、MQ等,更适合对数据实时性要求较高的场景,如实时数据备份、实时数据处理等。它在canal基础上实现了可配置的消费者,提供了一个web界面,可以自定义同步任务及map表,非常适合MySQL库之间的同步[^3]。 - **使用场景**: - **DataX**:适用于数据仓库建设、数据迁移、数据集成等场景,主要处理大规模的离线数据同步任务。 - **Otter**:常用于实时数据同步、主从复制、数据分发等场景,强调数据的实时性和一致性。
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值