datax使用说明

1、使用splitKey切分主键

分割任务由reader执行,对于mysqlReader,由CommonRdbmsReader的split方法执行

使用splitKey

channel(配置)

taskNumber(代码计算)

time(测试得出)

10

1

31s

1

1

31s

2

11

21s

3

16

11s

8

41

11s

10

51

11s

15

76

11s

20

101

11s

taskNumber = channel/tableNumber * splitFactor(默认5) +1

结论:1、只有配置了splitKey才会开启并行任务

2、任务运行时间有上限,不需要配置很大的channel就能达到这个上限,具体数值可以通过测试得出。

DataX是一个高效的数据同步工具,由阿里云团队开发并维护。它支持多种数据源之间的数据传输,并且配置简单、使用方便。 ### DataX的基本使用步骤 #### 1. 环境准备 首先需要准备好Python环境(推荐版本为2.7),因为DataX是以Python脚本的形式运行的。此外还需要下载最新版的DataX包以及相应的插件(如MySQL Reader、Oracle Writer等)用于连接特定类型的数据库或其他存储系统。 #### 2. 配置JSON文件 DataX通过编写JSON格式的任务配置文件来进行操作设置。这个配置文件包含了任务名称、读取端信息(Reader)、写入端信息.Writer以及其他一些必要的参数说明。 例如从Mysql到HDFS的一个简单的配置模板如下: ```json { "job": { "content": [ { "reader": { "name": "mysqlreader", "parameter": {} }, "writer": { "name": "hdfswriter", "parameter": {} } } ], "setting": { "speed": { "channel": 3 // 并行度,默认值为0表示无限制 } } } } ``` 每个部分的具体属性可以根据官方文档进一步补充完整,包括但不限于表名、列映射规则、过滤条件等等。 #### 3. 执行命令 将上述编辑好的.json结尾的文本保存下来之后,在命令行中切换至datax安装目录下输入类似这样的指令启动程序: ```bash python datax.py ${your_config_file}.json ``` 其中`${your_config_file}`是指向你刚刚创建的那个JSON配置文件路径变量。 以上就是关于DataX最基础也是最重要的几个方面了。当然还有更多高级特性等待探索!
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值