datax优化

一次数据同步任务6千多万的数据量,耗时20多分钟,运行状态如下:

可以看到任务平均流量为1.43MB/s,20分钟才运行结束。

调整点:调整channel并行度为5,并将运行内存调整为8g

python3 $bin_path --jvm="-Xms8G -Xmx8G" hdfs2mysql.json
"speed":{
                 "channel":5
        }

运行结果如下:

任务平均流量为4.55MB/s,6分钟运行结束,效率提升了3倍。

优化思路

DataX的数据同步涉及数据读取、数据交换和数据写入三部分,可以对每个部分进行优化加速。

{
    "core": {  #定义了全局的系统参数,如果不指定会使用默认值。
        "transport": {
            "channel": {
                "speed": {
                    "record": 5000,
                    "byte": 102400
                }
            }
        }
    },
    "job": {
        "setting": {
            "speed": {  #定义了单个channel的控制参数。
                "record": 10000,
            },
            "errorLimit": {
                "record": 0,
                "percentage": 0.02
            }
        },
        "content": [
            {
                "reader": {
                      .....#省略
                },

                "writer": {
                    .....#省略
                }
            }
        ]
    }
}
  • 数据读取

    数据源读取有table模式和querySQL模式两种模式,选择table模式可以实现加速读取。splitPk:指定splitPk字段,DataX会将reader中数据按照splitPk切分成n段。splitPk的字段必须是整型或者字符串类型。由于DataX的实现方式是按照splitPk字段分段查询数据库表,那么splitPk字段的选取应该尽可能选择分布均匀且有索引的字段,例如主键ID、唯一键等字段。如果不指定splitPk字段,则DataX将不会进行数据的切分,并行度会变为1。

  • 数据交换部分,可以通过以下方面进行同步优化。
    • JVM的内存

      发送给数据库的SQL语句后会得到查询的数据集,并缓存在DataX的buffer中。除此之外,每个channel也维护了自己的record队列。如果存在并发,则channel的个数越多,也会需要更多的内存。因此可以考虑指定JVM的内存大小参数,即在中通过-j参数来指定JVM的内存大小。

      python datax.py  -j"-Xms8g -Xmx8g" hdfs2mysql.json
    • channel的个数和流控参数在conf/core.json中,控制channel的关键参数如下图所示。

      说明

      • 一般情况下,channel队列本身配置的调整并不常见,但是在使用DataX时应该注意byte和record流控参数。这两个参数都是在flowControlInterval间隔中采样后根据采样值来决定是否进行流控。
      • 为了提升同步效率,您可以适当提高channel的个数来提高并发数,以及调高每个channel的byte和record限制来提高DataX的吞吐量。
      • 请综合考虑channel的个数和流控参数,保证理论峰值不会对服务器产生过高的压力。

      channel的个数和流控参数

      详细参数说明请参见下表。
      参数描述
      capacity限制channel中队列的大小,即最多缓存的record个数。
      byteCapacity限制record占用的内存大小,单位为字节。默认值为64 MB,如果不指定此参数,则占用内存大小会被配置为8 MB。
      byte控流参数,限制通道的默认传输速率,-1表示不限制。
      record控流参数,限制通道的传输记录个数,-1表示不限制。

      capacity和byteCapacity两个参数决定了每个channel能缓存的记录数量和内存占用情况。如果要调整相应参数,您需要按照DataX实际的运行环境进行配置。例如MySQL中每个record都比较大,那么可以考虑适当调高byteCapacity,调整该参数时还请同时考虑机器的内存情况。

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值