datax增量更新

本文介绍了在Greenplum数仓平台下,使用DataX进行增量更新所遇到的问题及解决方案。通过分析DataX的job描述方式,提出了两种增量更新思路,并着重讲解了在复杂SQL场景下,如何通过二次开发实现增量更新。此外,还讨论了如何利用DataX的日志功能进行任务监控。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

前言:

最近一直在做datax的增量更新,算是对datax有了一点新的认识吧。

因为公司需要以greenplum为核心来搭建自己的数仓平台,以满足业务上的多维快速查询(以前多维查询用到是kylin,但随着数据量的增加,kylin越来越难以满足我们的需求了)。

然而,greenplum的数据导入方面并不是很友好,通常,需要使用copy或者是gpfdist才能快速的往GP里面导入数据。

我们试了kettle来往GP导,但速度非常慢,原因是kettle导数据进入GP需要经过GP的master,是一条一条insert进去的。试了datax,同样是速度奇慢。

所以我们采用了别人开发好的datax版本,https://github.com/HashDataInc/DataX ,接下来我对datax增量更新所做的,都是在该版本的基础上来实现的。

 

datax简介

datax是阿里开源的一个etl工具,支持多种异构数据源。当然,datax适合用于离线数据的同步,不适合实时同步。具体的介绍,网上有不少博客,这里就不多介绍了

 

datax增量更新

思路:

第一种思路:datax的job是以一个json文件来描述的,本身提供了where条件,支持简单的增量更新

第二种思路:一旦我们的job中,增量抽取的数据比较复杂,比如,本身sql中需要多表关联或者有多个子查询,此时where条件已经无法满足。这种情况就是我接下来要讲的。

 

首先,为什么说如果抽取数据的sql比较复杂,where条件就无法满足

以mysqlreader举例,datax支持普通配置和用户自定义配置两种

普通配置需要用户配置Table、Column、Where的信息,而用户自定义配置则比较简单粗暴,只需要配置querySql信息,两者的模版如下:

普通配置:

{
    "job": {
        "content": [
            {
                "reader": {
                    "name": "mysqlreader", 
                    "parameter": {
                        "column": [], 
                        "connection": [
                            {
                                "jdbcUrl": [], 
                                "table": []
                            }
                        ], 
                        "password": "", 
                        "username": "", 
                        "where": ""
                    }
                }, 
                "writer": {
                    "name": "hdfswriter", 
                    "parameter": {
                        "column": [], 
                        "compress": "", 
                        "defaultFS": "", 
                        "fieldDelimiter": "", 
                        "fileName": "", 
                        "fileType": "", 
                        "path": "", 
                        "writeMode": ""
                    }
                }
            }
        ], 
        "setting": {
            "speed": {
                "channel": ""
            }
        }
    }
}

  自定义配置:


 
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值