DataX 是一个异构数据源离线同步工具,可以实现数据源之间的数据同步。
ODPSWriter插件适合于TB,GB数量级的数据传输,如果需要传输PB量级的数据,可以选择dt task工具 ;
工具下载
- 下载DataX
wget http://datax-opensource.oss-cn-hangzhou.aliyuncs.com/datax.tar.gz - 解压DataX
tar zxvf datax.tar.gz - 修改权限
chmod R 755 datax
使用方法
通过json文件进行配置,直接通过datax\bin下的datax.py文件启动
因为datax.py中的print方式为python2的方式,所以使用python2启动脚本。
python datax.py ..\job\job.json
官方git地址:https://github.com/alibaba/DataX
配置样例
- 内存同步到控制台
{
"job": {
"setting": {
"speed": {"channel": 1}
},
"content": [
{
"reader": {
"name": "streamreader",
"parameter": {
"sliceRecordCount": 10,
"column": [ { "type": "long", "