Apache DolphinScheduler系列6-Datax数据集成


摘要: Apache DolphinScheduler系列6-Datax数据集成

关键词: 大数据、数据集成、数据调度

整体说明

在调研了 DolphinScheduler 之后,在项目上实际使用了一段时间,有了一些使用Datax做数据集成的实际经验,分享如下。

一、前置条件

  • Datax安装: 见 《Datax安装步骤及优劣势分析》
  • 在同一台服务器: DolphinScheduler 需要执行 Python 来调用 Datax,无法跨服务器,所以 Datax 需要和 DolphinScheduler 在同一台服务器上

二、环境配置

  • DolphinScheduler 环境配置 Datax

    按照如图顺序依次点击新增 Datax环境

    在编辑页面填写 Python 执行路径 和 Datax执行路径,具体内容如下:

    export PYTHON_LAUNCHER=/usr/bin/python
    export DATAX_LAUNCHER=/home/datax/bin/datax.py
    

    配置结果如下

三、数据集成配置

3.1、源中心

  • 来源数据库: 配置好来源数据库连接
  • **目的数据库: **配置好目的数据库连接

3.2、Datax任务配置

  • 创建工作流

  • 添加 Datax 组件

    配置名称 和 环境信息

    配置来源库及自定义SQL 和 目的库目的表

    保存,之后,保存任务,上线任务

  • 运行测试任务,运行成功

  • 查看日志,数据集成成功

四、方案优势

  • 可视化配置页面: 在可视化页面配置自定义SQL.来选择源表字段,再也不用编辑 Datax 自带的 JSON 文件了
  • 服务器无侵入性: 当我们编辑 Datax 自带的 JSON 文件时,不可避免的需要服务器的相关权限,需要上传文件等,对服务器有侵入性,一般生产环境,没有这么高的权限
  • 开源方案,成本低: 无论是Datax 还是 DolphinScheduler 都是开源产品,不需要额外付钱
### 关于 DolphinScheduler 3.2.2 中使用 DataX 的指南 #### 配置环境准备 为了在 DolphinScheduler 3.2.2 版本中集成并使用 DataX 工具,需先解压安装包到指定目录。此操作可以通过如下命令完成: ```bash tar -xzvf /opt/soft/apache-dolphinscheduler-dev-SNAPSHOT-bin.tar.gz -C /opt/ ``` 该指令会将压缩文件中的内容释放至 `/opt/` 文件夹内[^1]。 #### 数据源设置说明 对于希望利用 DataX 实现不同数据库间的数据同步任务,在配置数据源时应遵循官方文档指导进行相应参数调整。具体步骤涉及编辑 `datasource.properties` 或者通过界面方式新增或修改现有连接信息来适配目标系统的访问需求。 #### 创建 DataX 类型的任务节点 当一切就绪之后,可以在工作流设计视图里添加一个新的处理器节点,并将其类型设定为 "DataX"。此时需要注意的是,虽然内置支持多种插件化组件用于处理来自不同存储介质的数据交换逻辑,但对于某些特定场景下的定制开发仍然不可或缺。因此建议深入研究 [DataX 官方手册](https://github.com/alibaba/DataX),以便更好地理解和运用其强大功能特性。 #### 示例脚本编写 下面给出一段简单的 Python 脚本作为参考案例,展示如何定义从 MySQL 到 Hive 表之间的全量迁移作业: ```python { "job": { "content":[ { "reader":{ "name":"mysqlreader", "parameter":{ ... } }, "writer":{ "name":"hivewriter", "parameter":{ ... } } } ], "setting":{ "speed":{"channel":3} } } } ``` 以上 JSON 结构仅展示了最基本的框架形式;实际应用过程中还需根据具体情况补充更多细节选项以满足性能优化等方面的要求。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

鹏说大数据

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值