「DataX」数据迁移-IDEA运行DataX方法总结

最新推荐文章于 2025-04-19 08:29:03 发布

淡酒交魂

最新推荐文章于 2025-04-19 08:29:03 发布

阅读量1.3k

点赞数 7

文章标签： datax IDEA

本文链接：https://blog.youkuaiyun.com/danjiujiaohun/article/details/146049193

版权

背景

业务需求希望把Oracle数据库中的数据，迁移至MySql数据库中，因为需要迁移全量和增量的数据，所以希望想用数据迁移工具进行操作。
经过一些调研查询，最终打算使用DataX进行数据的迁移。

DataX简单介绍

DataX 是阿里云 DataWorks数据集成的开源版本，在阿里巴巴集团内被广泛使用的离线数据同步工具/平台。DataX 实现了包括 MySQL、Oracle、OceanBase、SqlServer、Postgre、HDFS、Hive、ADS、HBase、TableStore(OTS)、MaxCompute(ODPS)、Hologres、DRDS, databend 等各种异构数据源之间高效的数据同步功能。

项目搭建

环境配置

jdk:1.8
IDEA:2023.2

1.clone源代码

DataX源码地址:https://github.com/alibaba/DataX

这里可以用各自习惯的方式，进行clone源代码至项目中，然后打开项目，等待依赖下载完成。如果这里导入太慢，可以在maven里的settings.xml配置阿里云的镜像地址，如下：

  <id>alimaven</id>  
  <name>aliyun maven</name>  
  <url>http://maven.aliyun.com/nexus/content/groups/public/</url>  
  <mirrorOf>central</mirrorOf>          
</mirror>

2.编译打包源码

可以用IDEA中的maven工具进行编译打包源码，clean(清理)，package(打包)
在这里插入图片描述

等待编译打包完成，可以在项目文件目录/core下方生成了一个target文件夹主要是需要用下方datax里面的内容。
在这里插入图片描述

也可以复制出来放在桌面上(地址:/Users/用户名/Desktop/datax[MacOS地址，win可以自行使用文件夹地址])，将打包后的文件提取出来，待后续配置配置完成，可移植至迁移源服务器上用python进行运行，这样就无需放一个大项目在服务器上进行运行。

3.配置编译后的包

可以看到文件夹下方的包目录结构如下图：
在这里插入图片描述

我们需要首先修改conf文件夹下的core.json配置，修改里面的core.transport.speed.byte,只要不为-1即可，值可以任意写，比如把byte设置为2000000，表示单个通道的大小更改为2MB
在这里插入图片描述

4.修改任务配置

打开datax文件夹下方的job文件夹，打开job.json文件，这里最重要的是reader和writer，这两分别代表了读数据库配置和写数据库配置
最开始看到的job示例任务，用到了streamreader和streamwriter插件，这是流数据的读和写插件，DataX目前已经有了比较全面的插件体系，主流的RDBMS数据库、NOSQL、大数据计算系统都已经接入，所以可以根据我们自己的需求配置对应的插件。首先先在datax文件目录下，新建一个plugin目录
在这里插入图片描述

然后需要修改任务配置和添加对应插件组件，拿需要从Mysql数据库迁移到另一Mysql数据库举例，需要配置mysqlreader和mysqlwriter两个插件

回到工程，在maven中找到mysqlreader和mysqlwriter，然后也使用上方的方法进行打包，将打包出来的reader和writer文件复制到datax-plugin路径下
在这里插入图片描述

然后修改job.json文件配置上对应的数据库地址，账号密码等相关信息。
具体配置方式可参考官网https://github.com/alibaba/DataX 数据源参考指南
修改后配置文件如下
在这里插入图片描述

5.配置运行环境

回到IDEA项目中，DataX的启动项路径在src/main/java/com/alibaba/datax/core/Engine.java类，然后可以在IDEA的右上角进行配置启动文件
在这里插入图片描述

然后需要添加一个VM options配置，添加方式如下
在这里插入图片描述

添加后，需要配置以下三项即可：

配置项	配置内容	描述
VM options	-Ddatax.home=/Users/用户名/Desktop/datax	datax编译后存放的地址
Program arguments	-mode standalone -jobid -1 -job /Users/用户名/JavaProject/DataX/core/src/main/job/job.json	运行的json文件路径
JRE	1.8	官方建议使用jdk1.8

ps：这里我用的是IDEA里面的job文件，运行的组件是桌面上的组件，大家可以都更改为IDEA中的内容，如果跟我一样的话，需要注意要把需要用到的组件打包到桌面datax-plugin文件夹中