datax优化

最新推荐文章于 2024-08-26 17:42:15 发布

原创最新推荐文章于 2024-08-26 17:42:15 发布 · 2.6k 阅读

14 ·

CC 4.0 BY-SA版权

文章标签：

#etl #大数据

一次数据同步任务6千多万的数据量，耗时20多分钟，运行状态如下：

可以看到任务平均流量为1.43MB/s，20分钟才运行结束。

调整点：调整channel并行度为5，并将运行内存调整为8g

python3 $bin_path --jvm="-Xms8G -Xmx8G" hdfs2mysql.json

"speed":{
                 "channel":5
        }

运行结果如下：

任务平均流量为4.55MB/s，6分钟运行结束，效率提升了3倍。

优化思路

DataX的数据同步涉及数据读取、数据交换和数据写入三部分，可以对每个部分进行优化加速。

{
    "core": {  #定义了全局的系统参数，如果不指定会使用默认值。
        "transport": {
            "channel": {
                "speed": {
                    "record": 5000,
                    "byte": 102400
                }
            }
        }
    },
    "job": {
        "setting": {
            "speed": {  #定义了单个channel的控制参数。
                "record": 10000,
            },
            "errorLimit": {
                "record": 0,
                "percentage": 0.02
            }
        },
        "content": [
            {
                "reader": {
                      .....#省略
                },

                "writer": {
                    .....#省略
                }
            }
        ]
    }
}

数据读取
数据源读取有table模式和querySQL模式两种模式，选择table模式可以实现加速读取。splitPk：指定splitPk字段，DataX会将reader中数据按照splitPk切分成n段。splitPk的字段必须是整型或者字符串类型。由于DataX的实现方式是按照splitPk字段分段查询数据库表，那么splitPk字段的选取应该尽可能选择分布均匀且有索引的字段，例如主键ID、唯一键等字段。如果不指定splitPk字段，则DataX将不会进行数据的切分，并行度会变为1。

数据交换部分，可以通过以下方面进行同步优化。

JVM的内存
发送给数据库的SQL语句后会得到查询的数据集，并缓存在DataX的buffer中。除此之外，每个channel也维护了自己的record队列。如果存在并发，则channel的个数越多，也会需要更多的内存。因此可以考虑指定JVM的内存大小参数，即在中通过-j参数来指定JVM的内存大小。
```
python datax.py  -j"-Xms8g -Xmx8g" hdfs2mysql.json
```

channel的个数和流控参数在conf/core.json中，控制channel的关键参数如下图所示。

说明

一般情况下，channel队列本身配置的调整并不常见，但是在使用DataX时应该注意byte和record流控参数。这两个参数都是在flowControlInterval间隔中采样后根据采样值来决定是否进行流控。
为了提升同步效率，您可以适当提高channel的个数来提高并发数，以及调高每个channel的byte和record限制来提高DataX的吞吐量。
请综合考虑channel的个数和流控参数，保证理论峰值不会对服务器产生过高的压力。

channel的个数和流控参数

详细参数说明请参见下表。


参数	描述
capacity	限制channel中队列的大小，即最多缓存的record个数。
byteCapacity	限制record占用的内存大小，单位为字节。默认值为64 MB，如果不指定此参数，则占用内存大小会被配置为8 MB。
byte	控流参数，限制通道的默认传输速率，-1表示不限制。
record	控流参数，限制通道的传输记录个数，-1表示不限制。

capacity和byteCapacity两个参数决定了每个channel能缓存的记录数量和内存占用情况。如果要调整相应参数，您需要按照DataX实际的运行环境进行配置。例如MySQL中每个record都比较大，那么可以考虑适当调高byteCapacity，调整该参数时还请同时考虑机器的内存情况。