基于海豚调度功能开发——推送下游系统数据库连接信息批量修改方案与实现

最新推荐文章于 2025-12-15 22:17:04 发布

原创

最新推荐文章于 2025-12-15 22:17:04 发布 · 952 阅读

17 ·

CC 4.0 BY-SA版权

文章标签：

#大数据

功能需求背景

由于信创（信息技术应用创新产业）改造要求，上个月已将从数据仓库推送下游官网系统的ORACLE数据库相关数据推送任务迁移到信创人大金仓临时数据库，整体任务完成切换上线并试运行稳定。

由于年底需要进行信创数据库的正式上线，目前需要将人大金仓临时数据库切换到生产环境的人大金仓正式数据库，两者的区别仅仅在于数据库的IP和端口不同。

因为推送信创官网的表数据相关任务分散在 Apache DolphinScheduler （以下简称海豚调度）系统各个工作流之中，如何找到所有的推送任务并进行切换，保证所有的推送任务都能够完整覆盖是本次功能实现的难点。

方案设计

本次功能实现的方案设计方案如下图所示：

首先，通过海豚调度元数据中工作流定义相关表找到推送官网的相关工作流任务，梳理出相关工作流和子工作流，并通过工作流及子工作流找到对应的推送任务；

然后，通过解析DATAX推送任务JSON配置文件找到该任务对应推送目标表并整理出目标表清单，让下游系统（即官网系统）负责人确认梳理出的推送任务是否包括所有推送表；

接着，将之前完成配置并上线的工作流及子工作流导出并在开发环境进行配置，修改推送下游系统（即官网系统）的数据库连接信息，完成配置后上线并执行一次推送任务，当所有推送任务

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

DolphinScheduler社区

关注关注

20
点赞
踩
17

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
打赏
打赏
打赏举报

举报

海豚调度器用得好，运维人员少加班 —— 高级技巧与使用教程

大模型大数据攻城狮的专栏

08-07

918

可视化工作流设计。

DolphinScheduler 分布式调度系统二开达梦数据库初始化sql

01-03

DolphinScheduler 分布式调度系统二开达梦数据库初始化sql

参与评论您还未登录，请先登录后发表或查看评论

一款简单好用的数据调度工具：DolphinSchedule

SQL数据库开发

11-08

2257

大家好，我是岳哥。今天给大家分享一下常用的一款数据调动工具：DolphinSchedule。下载地址https://dolphinscheduler.apache.org/en-us/download/3.2.2前置条件JDK：下载JDK (1.8+)，安装并配置 JAVA_HOME 环境变量，并将其下的 bin 目录追加到 PATH 环境变量中。如果你的环境中已存在，可以跳过这步。解压并启动压缩...

12-海豚调度器DolphinScheduler

qq_43819048的博客

09-11

5781

自定义日期格式$[yyyyMMdd]也可以写成$[yyyy-MM-dd]$[HHmmss] 也可以添加: $[HH:mm:ss]

用海豚调度器定时调度从Kafka到HDFS的kettle任务脚本

Apache DolphinScheduler开源社区

04-17

1654

工作流启动，成功！工作流一直在跑相应的任务实例也在跑！

五个篇章讲明白如何从0到1搭建大数据平台

热门推荐

数据一哥，公众号：数据社

11-04

2万+

大家好，我是一哥，整理了一下之前写的搭建大数据平台的5个篇章，请大家收藏，文末可以获取完整PDF版本。01如何从0到1搭建大数据平台大数据时代这个词被提出已有10年了吧，越来越多的企业已经...

最全企业级数仓建设迭代版

dovert的博客

11-14

1486

一什么是数据仓库 1.1 数据仓库概念数据仓库，英文名称为Data Warehouse，可简写为DW或DWH。数据仓库，是为企业所有级别的决策制定过程，提供所有类型数据支持的战略集合。它出于分析性报告和决策支持目的而创建。 1.2 数据仓库特点 1.2.1面向主题普通的操作型数据库主要面向事务性处理，而数据仓库中的所有数据一般按照主题进行划分。主题是对业务数据的一种抽象，是从较高层次上对信息系统中的数据进行归纳和整理。面向主题的数据可以划分成两部分----根据原系统业务数据的特点进行主题的抽取和确定

大数据常见面试问题汇总

Bigdata_shit的博客

07-12

6105

你。

dolphinScheduler海豚调度器动态传递任务执行参数

02-23

### dolphinScheduler海豚调度器动态传递任务执行参数 #### 一、重要性及应用场景 **dolphinScheduler**（简称DS）是一款强大的分布式任务调度平台，支持多种类型的作业执行，如Shell、Python、Spark等。它能够...

基于海豚BaaS平台快速开发的一套区块链系统源码.zip

03-27

《基于海豚BaaS平台快速开发的一套区块链系统源码》是一份极具学习价值的资源。该源码依托海豚BaaS平台进行开发，展现出了区块链技术在实际应用中的创新与实践。它集成了一系列先进的区块链特性，如分布式账本、...

ELK 企业级日志分析系统

hanyi_qwe的博客

12-14

1187

ELK平台是一套完整的日志集中处理解决方案，将 ElasticSearch、Logstash 和 Kiabana 三个开源工具配合使用，完成更强大的用户对日志的查询、排序、统计需求。ELK 是LogstashKibana的缩写，这三个工具组合在一起，用于数据收集、存储、搜索和可视化分析。Elasticsearch：核心搜索和分析引擎，负责存储数据并提供快速的全文搜索和分析功能。

从 “人工标注” 到 “AI 驱动”：数据分类分级技术的效率革命

KKKlucifer的博客

12-11

552

在数据安全与合规治理常态化的今天，数据分类分级已成为企业筑牢数据安全防线的 “第一道关口”。传统人工标注模式下，企业需投入大量人力梳理海量数据，不仅耗时耗力、成本高昂，还存在标注标准不统一、遗漏率高、难以适配动态业务场景等痛点。随着 AI 技术与数据治理的深度融合，正掀起一场效率革命，实现从 “人治” 到 “智治” 的跨越，为企业数据安全治理注入全新动能。

java高并发高可用场景解决方案

Liaka的博客

12-10

895

相信大部人初级开发跟我一样，平时接触不到什么高并发场景，虽然也能花心思做，但总是受困于杀鸡用牛刀或工资配不上努力或没时间等。故本人整理一份分场景的高并发解决方案，也会包括高可用场景。

kakfa文件清理策略方法和种类

2301_80954266的博客

12-14

499

两者结合可提供更全面的保障。Kafka 中默认的日志（这个地方是数据的意思，就是Segment）保存时间为 7 天，可以通过调整如下参数修改保存时间。--如果设置了该值，小时的设置不起作用。--如果设置了该值，分钟的设置不起作用。Kafka 允许同时配置基于时间和基于大小的策略。log.retention.hours，最低优先级小时，默认 7 天。查看分区日志大小和最早/最新偏移量）来监控清理策略的执行情况。好的，我们来详细说明 Kafka 的文件清理策略方法和种类。两种日志清理策略，可以单独或组合使用。

windows10 上安装 elasticsearch

恒

12-11

805

注意到配置 kibana 访问 ES 采用的是 kibana_system 账号，而不能是 elastic 账号。kibana_system 是 ES 自动设置的服务于kibana 的账号。Kibana是Elasticsearch的可视化管理工具 —— ELK 的 K。假设 ES 集群名：sqldam ，可以支持单节点实例和多节点实例。你可以部署为单机单节点，单机多节点，多机多节点。安装最新的 es 和 kibana。Windows 上目录配置项使用的 “/” 或 “” 都不是随意的，请严格按照本文设置。

Spring Boot 4 整合46篇教程，Spring Boot 4 企业级项目开发完整实践指南

架构师专栏

12-09

1177

兄弟们，鹏磊我这次整了个大活,把 Spring Boot 4 的整合教程都给你整理出来了，一共 46 篇，从基础框架到云原生部署，该有的都有了。

分布式消息队列kafka【四】—— 消费者进阶提升

最新发布

qq_46601365的博客

12-15

400

本文介绍了Kafka消费者与消费者组的概念及其应用。Kafka消费者组采用一对多关系，一个消费者组可包含多个消费者，每个分区只能被组内一个消费者消费。文章阐述了Kafka如何同时支持点对点（P2P）和发布/订阅（Pub/Sub）两种消息投递模式：当消费者同属一组时为P2P模式（消息均衡分配）；当消费者分属不同组时为Pub/Sub模式（消息广播）。通过Java代码示例展示了生产者发送消息和两种消费模式的实现，其中P2P模式消费者通过订阅主题实现消息独占消费。文中还通过图示说明了消费者动态增减时分区重新分配的过

拒稿率低 + 见刊快！计算机国际会议 / 期刊合集

2503_94264320的博客

12-15

750

本文介绍了四本学术期刊和一个国际学术会议的信息。1.《安全科学与工程学报》聚焦安全科学跨学科研究；2.《计算机与自主智能研究进展》关注计算机与智能系统前沿；3.《智能与知识工程学报》和4.《大数据与计算学报》均为英文期刊，分别侧重智能技术与大数据研究。5.2026年人工智能前沿技术与管理国际学术会议(AIDMM2026)将在马来西亚举办，收录论文将由ACM出版并提交EI/Scopus检索。

scala 介绍

2501_94155965的博客

12-11

1448

Scala（Scalable Language，可扩展语言）是一门，由瑞士洛桑联邦理工学院（EPFL）的 Martin Odersky 于 2001 年设计，核心目标是融合和的优势，同时兼顾代码的简洁性、可扩展性和高性能，广泛应用于大数据、后端开发、分布式系统等领域。

海豚调度怎么实现两个数据库数据同步

09-04

<think> 嗯，用户这次问的是海豚调度器实现两个数据库数据同步的具体方法。结合之前的对话历史，用户之前已经接触过海豚调度器的架构优势（对比CDH Hive），也看到过CloudCanal这个工具的描述（引用2），但这次明确指向海豚调度器本身的功能实现。用户可能是个数据工程师或架构师，正在搭建数仓同步链路。ta的提问很精准，说明已经做过基础调研，现在需要实操指导。有趣的是，引用2里提到的CloudCanal其实是第三方工具，用户特意强调"海豚调度实现"，说明ta更关注原生方案而非外部集成。从技术角度看，海豚调度器本身不直接提供数据同步能力——这点需要明确告知用户避免误解。它的核心价值在于调度和编排，实际同步任务需要依赖其他组件。用户可能混淆了"任务调度"和"数据同步"两个概念，需要帮ta理清边界。具体回答时我会分三层：先说明调度器和同步工具的关系（架构定位），再给出三种典型方案（插件、外部工具、自定义代码），最后强调注意事项。特别要提醒用户引用3里的任务结构示例——虽然当时用户可能没意识到，但那个json正是定义同步任务的关键模板。考虑到用户的技术水平，同步原理部分用数据库符号$A \rightarrow B$表达更简洁，但操作步骤必须具体到按钮位置（比如"数据源中心"）。对于ta可能遇到的坑，比如不同步问题，提前埋入排查建议比较实用。 </think> 海豚调度器（DolphinScheduler）实现两个数据库的数据同步，主要通过**任务编排+数据同步工具**实现，而非原生提供同步能力。以下是具体方法及步骤： --- ### **方法一：使用内置插件（如DataX）** 1. **添加数据源** 在Web UI的「数据源中心」添加两个数据库的连接配置（如MySQL、Oracle等），填写地址、账号、密码等信息[^3]。 2. **创建DataX任务节点** - 在「项目管理」中新建工作流，拖拽「DataX」节点到画布 - 配置DataX任务： ```json { "job": { "content": [{ "reader": { "name": "mysqlreader", "parameter": { "username": "src_user", "password": "***", "connection": [{ "jdbcUrl": ["jdbc:mysql://src_db:3306/db"], "table": ["table_A"] }] } }, "writer": { "name": "mysqlwriter", "parameter": { "username": "dst_user", "password": "***", "connection": [{ "jdbcUrl": "jdbc:mysql://dst_db:3306/db", "table": ["table_B"] }] } } }] } } ``` 3. **设置调度周期** 配置定时策略（如每天凌晨执行），并关联通知策略。 --- ### **方法二：集成外部同步工具（如Flink/SeaTunnel）** 1. **部署同步工具** 安装Flink或SeaTunnel，编写同步作业配置文件（例如SeaTunnel的`config.conf`）： ```conf source { jdbc { url = "jdbc:mysql://src_db:3306/db" table = "table_A" } } sink { jdbc { url = "jdbc:postgresql://dst_db:5432/db" table = "table_B" } } ``` 2. **创建Shell任务节点** 在工作流中添加Shell节点，执行同步命令： ```bash /opt/seatunnel/bin/start-seatunnel.sh --config /path/to/config.conf ``` 3. **依赖与监控** 配置上游依赖（如前置数据清洗任务），通过海豚调度器日志界面监控执行状态[^1][^3]。 --- ### **方法三：自定义Python/SQL脚本** 1. **脚本同步逻辑** 编写Python脚本（使用PyMySQL/psycopg2等库）： ```python import pymysql, psycopg2 # 从MySQL读取 src_conn = pymysql.connect(host="src_db", user="user", password="***", database="db") cursor = src_conn.cursor() cursor.execute("SELECT * FROM table_A") data = cursor.fetchall() # 写入PostgreSQL dst_conn = psycopg2.connect(host="dst_db", user="user", password="***", dbname="db") with dst_conn.cursor() as dst_cursor: for row in data: dst_cursor.execute("INSERT INTO table_B VALUES (%s, %s)", row) dst_conn.commit() ``` 2. **配置任务节点** 将脚本上传至海豚调度器资源中心，通过Shell节点调用： ```bash python /data/sync_script.py ``` --- ### **关键注意事项** 1. **数据一致性** - 增量同步建议使用`binlog`或时间戳字段 - 全量同步需锁定表或选择低峰期执行 2. **性能优化** - 批处理模式（如DataX的`batchSize`参数） - 分布式执行（通过海豚调度器的Worker分组） 3. **错误处理** 配置任务失败重试策略，并设置邮件/钉钉告警[^1][^3]。 --- ### **常见问题排查** - **连接失败**：检查数据源网络连通性及账号权限 - **同步卡顿**：调整DataX的`channel`并发参数 - **数据丢失**：验证SQL过滤条件，检查事务提交逻辑 > ⚠️ **重要**：海豚调度器核心能力是**任务调度与监控**，实际同步需依赖DataX/Flink等工具实现。若需实时同步，建议结合Flink CDC[^2]。 ---