王炸组合：Dolphinscheudler 3.1.搭配SeaT unnel2.3.高效完成异构数据数据集成

最新推荐文章于 2025-09-09 17:00:25 发布

原创

最新推荐文章于 2025-09-09 17:00:25 发布 · 1k 阅读

8 ·

CC 4.0 BY-SA版权

文章标签：

#大数据

file

概述

本篇主要介绍如何通过Dolphinscheduler海豚调度搭配Seatunnel完成异构数据源之间的数据同步功能，这个在大数据流批一体数仓建设的过程中是一个非常好的解决方案，稳定高效，只要用上了你肯定爱不释手。

环境准备

dolphinscheduler集群 >= 3.1.5
dolphinscheduler3.1.5版本源码
Seatunnel集群 >= 2.3.3

没有安装好以上准备环境的童鞋，请先参考我的另外两篇文章完成基础环境搭建基于Seatunnel最新2.3.5版本分布式集群安装部署指南(小白版)及dolphinscheduler分布式集群部署指南(小白版)再回到章节继续。

配置文件修改

这里说明一下，通过海豚调度配置的Seatunnel数据同步任务最后都会被分配到DS集群的某个Worker组或者某个worker节点上进行执行，所以你要保证你的DS集群的目标worker节点上也安装了Seatunnel服务。这很重要，因为实际dolphisncheduler中定义的seatunnel任务实例到最后都是需要调用worker节点上的seatunnel服务在本地执行seatunnel的任务启动命令来完成任务提交和运行。

Dolphinscheduler的配置文件修改

因为我们需要使用seatunnel完成数据集成，所以我们需要在dolphinscheduler的系统环境变量中将我们的Seatunnel的安装目录进行配置。

找到你的dolphinscheduler主节点的安装目录下的$DOLPHINSCHEDULER_HOME/bin/env/dolphinscheduler_env.sh。

设置SEATUNNEL_HOME的访问目录，将SEATUNNEL_HOME设置为你自己的SeaTunnel安装目录。

export SEATUNNEL_HOME=${SEATUNNEL_HOME:-/opt/software/seatunnel-2.3.5}

然后保存重启Dolphinscheduler集群即可完成配置修改同步到所有的api-server、master-server及worker-server节点。

Dolphinscheduler部分源码修改

为什么要修改Dolphinscheduler的源码？因为我这里使用的Seatunnel的版本是2.3.5，使用的引擎不是Seatunnel的默认引擎，用的是Spark引擎， Spark我用的版本是2.4.5，所有我最后在命令执行的命令如下：

$SEATUNNEL_HOME/bin/start-seatunnel-spark-2-connector-v2.sh --master local[4] --deploy-mode client --config /opt/software/seatunnel-2.3.5/config/app-config/v2.batch.config.template

如果我用的是Spark3.X的版本，我执行命令如下：

$SEATUNNEL_HOME/bin/start-seatunnel-spark-3-connector-v2.sh --master local[4] --deploy-mode client --config /opt/software/seatunnel-2.3.5/config/app-config/v2.batch.config.template

然而在Dolphinscheduler3.1.5版本的Seatunnel任务插件中，存在一些问题没办法兼容，首先是前端，这里引擎只支持Spark和Flink，没有针对具体的版本进行兼容，没办法自由的选择使用Spark2、Spark3还是FIink13、Flink15。 file

其次就是后端的代码。 file

找到EngineEnum类，修改一下代码如下：

最低0.47元/天解锁文章