本地安装Datax可视化页面

本文介绍了如何在Windows环境下安装Datax Web,涉及JDK1.8、Python3.7、MySQL5.7和Maven3.39的环境准备,使用IntelliJ IDEA和PyCharm作为工具。首先,通过Maven导入datax-web项目到IDEA,接着执行SQL文件,然后配置application.yml文件,最后按照顺序启动datax-admin和datax-executor,访问localhost的指定端口进行登录。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

本地安装Datax可视化页面

本文仅为我在win运行

需要准备的环境:JDK1.8,python3.7,mysql5.7,maven3.39(maven版本可以不一致)
工具:pycharm2020,idea2019
代码:https://gitee.com/WeiYe-Jing/datax-web?_from=gitee_search

1.将下载好的datax-web项目,通过maven导入到idea中

2.通过mysql执行SQL文件

3.修改datax-admin下resource中的applicationn.yml配置文件
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

4.修改datax-executor的resource下的application.yml配置文件
在这里插入图片描述

在这里插入图片描述
5.先运行datax-admin,再启动datax-executor

6.浏览器输入http://localhost:admin端口号
http://127.0.0.1:8888/index.html#/login
用户名:admin 密码:123456

一. DataX3.0 概览  DataX 是一个异构数据源离线同步工具,致力于实现包括关系型数据库(MySQL、Oracle 等)、HDFS、Hive、ODPS、HBase、FTP 等各种异构数据源之间稳定高效的数据同步功能。  设计理念  为了解决异构数据源同步问题,DataX 将复杂的网状的同步链路变成了星型数据链路,DataX 作为中间传输载体负责连接各种数据源。当需要接入一个新的数据源的时候,只需要将此数据源对接到 DataX,便能跟已有的数据源做到无缝数据同步。  当前使用现状  DataX 在阿里巴巴集团内被广泛使用,承担了所有大数据的离线同步业务,并已持续稳定运行了 6 年之久。目前每天完成同步 8w 多道作业,每日传输数据量超过 300TB。  此前已经开源 DataX1.0 版本,此次介绍为阿里巴巴开源全新版本 DataX3.0,有了更多更强大的功能和更好的使用体验。Github 主页地址:https://github.com/alibaba/DataX。  二、DataX3.0 框架设计  DataX 本身作为离线数据同步框架,采用 Framework plugin 架构构建。将数据源读取和写入抽象成为 Reader/Writer 插件,纳入到整个同步框架中。  Reader:Reader 为数据采集模块,负责采集数据源的数据,将数据发送给 Framework。  Writer: Writer 为数据写入模块,负责不断向 Framework 取数据,并将数据写入到目的端。  Framework:Framework 用于连接 reader 和 writer,作为两者的数据传输通道,并处理缓冲,流控,并发,数据转换等核心技术问题。  三. DataX3.0 插件体系  经过几年积累,DataX 目前已经有了比较全面的插件体系,主流的 RDBMS 数据库、NOSQL、大数据计算系统都已经接入。DataX 目前支持数据如下:  DataX Framework 提供了简单的接口与插件交互,提供简单的插件接入机制,只需要任意加上一种插件,就能无缝对接其他数据源。详情请看:DataX 数据源指南  四、DataX3.0 核心架构  DataX 3.0 开源版本支持单机多线程模式完成同步作业运行,本小节按一个 DataX 作业生命周期的时序图,从整体架构设计非常简要说明 DataX 各个模块相互关系。  核心模块介绍:  DataX 完成单个数据同步的作业,我们称之为 Job,DataX 接受到一个 Job 之后,将启动一个进程来完成整个作业同步过程。DataX Job 模块是单个作业的中枢管理节点,承担了数据清理、子任务切分(将单一作业计算转化为多个子 Task)、TaskGroup 管理等功能。  DataXJob 启动后,会根据不同的源端切分策略,将 Job 切分成多个小的 Task (子任务),以便于并发执行。Task 便是 DataX 作业的最小单元,每一个 Task 都会负责一部分数据的同步工作。  切分多个 Task 之后,DataX Job 会调用 Scheduler 模块,根据配置的并发数据量,将拆分成的 Task 重新组合,组装成 TaskGroup (任务组)。每一个 TaskGroup 负责以一定的并发运行完毕分配好的所有 Task,默认单个任务组的并发数量为5。  每一个 Task 都由 TaskGroup 负责启动,Task 启动后,会固定启动 Reader>Channel>Writer 的线程来完成任务。 标签:数据同步
### 海豚调度 (DolphinScheduler) 与 DataX 的集成及使用方法 #### DolphinScheduler 和 DataX 的概述 DolphinScheduler 是一款分布式易扩展的可视化工作流任务调度系统,支持多种类型的作业节点运行环境配置[^3]。而 DataX 则是一个强大的离线数据同步工具,能够实现不同异构数据源之间的高效数据传输[^1]。 当两者结合时,可以通过 DolphinScheduler 调度并执行 DataX 提供的数据同步任务脚本文件(通常是 JSON 格式的配置文件),从而完成复杂的工作流编排以及跨系统的数据迁移需求。 #### 配置准备 为了使 DolphinScheduler 正确调用到本地安装好的 DataX 工具,请先确认以下几点设置无误: - **Python 环境变量** 在 `dolphinscheduler/bin/env/dolphinscheduler_env.sh` 文件里定义好 Python 解析器路径: ```bash export PYTHON_HOME=${PYTHON_HOME:-/usr/local/Cellar/python/3.7.5/bin/python3.7} ``` - **DataX 安装目录** 同样在此 shell profile 中指定 DataX 所处的具体位置以便加载插件组件等资源: ```bash export DATAX_HOME=${DATAX_HOME:-/Users/lijiuyang/Downloads/开发相关/安装包/datax-web/datax} ``` 以上两步操作确保了后续流程可以顺利找到必要的依赖库和服务端口地址信息等内容[^2]。 #### 创建自定义命令行类型的任务节点 登录进入 DolphinScheduler Web UI 页面之后新建一个名为 “RunShell” 或者其他类似的通用名称作为模板分类下的子项;接着填写实际要被执行的一串 Shell 命令字符串形式表达出来——这里即为启动某个特定参数组合后的 DataX 进程实例化过程描述如下所示例子那样写入即可: ```shell ${PYTHON_HOME} ${DATAX_HOME}/bin/datax.py /path/to/job_config.json ``` 其中 `/path/to/job_config.json` 应替换为你自己的具体 job config json 文件所在绝对磁盘路径位置[^4]。 另外需要注意的是如果涉及到敏感账号密码之类的私密字段最好采用加密存储机制或者通过外部 vault service 动态拉取方式来规避明文暴露风险问题发生可能性增加安全性保障措施落实到位情况良好状态下再提交保存成功后就可以正常投入使用啦! --- ### 示例代码片段展示如何编写 Job Config Json File 下面给出一段简单的从 MySQL 数据表导出部分列值存放到 HDFS 上面去的例子供大家参考学习借鉴一下思路做法吧: ```json { "job": { "content": [ { "reader": { "name": "mysqlreader", "parameter": { "username": "root", "password": "", "column": ["id", "name"], "connection": [{ "jdbcUrl": ["jdbc:mysql://localhost:3306/testdb"], "table": ["users"] }] } }, "writer": { "name": "hdfswriter", "parameter": { "defaultFS": "hdfs://namenode:8020", "fileType": "text", "writeMode": "append", "fieldDelimiter": ",", "fileName": "/output/users_data" } } } ], "setting": { "speed": { "channel": 3 } } } } ``` 此段 JSON 文档结构清晰地表达了读取来自关系型数据库中的若干记录并通过管道输送到目标分布式文件系统上的整个动作序列逻辑链条完整呈现出来了[^5]。 ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值