🔥🔥 AllData大数据产品是可定义数据中台,以数据平台为底座,以数据中台为桥梁,以机器学习平台为中层框架,以大模型应用为上游产品,提供全链路数字化解决方案。
✨杭州奥零数据科技官网:http://www.aolingdata.com
✨AllData开源项目:https://github.com/alldatacenter/alldata
✨Gitee组织:https://gitee.com/alldatacenter
摘要:数据同步平台基于开源项目SeaTunnel建设,它支持上百种数据源,兼容离线、实时、全量/增量同步等场景,具备高吞吐、低时延特点。内容主要为以下四部分:
一、在线演示环境
二、功能简介
三、源码编译部署安装
四、访问数据同步平台页面
💡Tips:关注「公众号」大数据商业驱动引擎
🔹AllData数据中台线上正式环境:http://43.138.156.44:5173/ui_moat/请联系市场总监获取账号密码
2.1 数据同步平台基于开源项目SeaTunnel建设
数据同步平台(SeaTunnel)基于开源项目构建,是高性能、分布式数据集成框架。
支持上百种数据源,兼容离线、实时、全量/增量同步等场景,具备高吞吐、低时延特点,每天可稳定高效同步数百亿数据,还支持可视化与代码开发,方便用户进行复杂数据集成任务。
🔹开源项目:https://github.com/apache/seatunnel
🔹开源项目:https://github.com/apache/seatunnel-web
🔹SeaTunnel文档:
https://seatunnel.apache.org/zh-CN/docs/2.3.11/start-v2/locally/deployment/
🔹参考安装SeaTunnel:https://blog.youkuaiyun.com/weixin_53458434/article/details/142341000
2.2 数据同步平台功能特点
- 高性能与发布式架构
- 多源数据接入与兼容
- 多种同步场景支持
- 多引擎支持
- 高吞吐量与低延迟
- 可视化与代码开发支持
- 丰富的连接器与插件化设计
- 完善的实时监控
- 高可用与容错机制
- 数据血缘与质量监控
- 安全合规
💡部署步骤:
3.1 环境准备
🔹Java环境:
安装Java 8或11,并配置JAVA_HOME环境变量。
示例命令:
🔹下载SeaTunne安装包:
从SeaTunneI官网下载最新版本的安装包,例如:
🔹配置环境变量:
添加SEATUNNEL_HOME环境变量,例如:
3.2 获得源码
🔹版本选择
3.3 编译构建
🔹使用Maven编译源码:
编译完成后,生成的二进制包位于target目录下
3.4 部署及运行配置
🔹配置SeaTunnel Engine
编辑$SEATUNNEL_HOME/config/seatunnel.yaml文件,配置引擎参数,例如:
🔹启动SeaTunnel Engine
启动Master和Worker服务:
🔹启动SeaTunnel Web(可选)
如果需要Web界面,可以启动SeaTunnel Web服务:访问Web界面:http://127.0.0.1:8801/ui/,默认用户名和密码为admin/admin。
3.5 可选配置
🔹配置Master节点JVM选项
编辑$SEATUNNEL_HOME/config/jvm_master_options文件,配置JVM参数,例如:
🔹配置Worker节点JVM选项
编辑$SEATUNNEL_HOME/config/jvm_worker_options文件,配置JVM参数,例如:
🔹配置数据血缘与质量控制
SeaTunnel支持自动捕获数据血缘,生成字段级影响分析报告。可以通过配置质量平台实时扫描同步数据,监测空值率、重复率等指标。
🔹配置安全合规
利用Mask Filter对敏感字段(如身份证号、手机号)进行脱敏。
通过权限矩阵控制任务操作权限,例如:
🔹配置高可用与容错
SeaTunnel支持高可用部署(如K8s多副本),单节点故障不影响整体运行。配置数据备份策略(如Hive表每日快照),防止误删数据。
4.1 功能概览-同步任务定义
支持灵活配置数据源、目标及规则,实现离线/实时、全量/增量数据同步任务定制。
4.2 创建任务同步
4.3 同步任务定义-定义
支持用户以低代码/高定制双模式配置,可自由组合数据源与目标端、设置字段映射及转换规则,灵活适配复杂场景。
4.4 数据源
支持关系型/非关系型数据库、文件系统、消息队列等多源接入,提供可视化分类管理与快速检索,可自定义数据源参数与连接配置。
4.5 选择源类型-传统数据库
4.6 传统数据库-创建源
支持-键接入MySQL/0racle/SQLServer等主流库,可配置IP、端口认证信息,自定义SOL/表级抽取策略,并支持SSL加密传输。
4.7 选择源类型-文件
4.8 文件
4.9 选择源类型-非结构化
4.10 创建源
4.11 选择源类型-假链接
4.12 创建源
4.13 虚拟表
支持动态映射数据源,可自定义字段与逻辑,实现跨源虚拟视图构建,简化复杂数据整合。
4.14 创建虚拟表
支持跨源数据虚拟整合,可自定义字段逻辑与关联规则,实现数据逻辑视图快速构建。
4.15 编辑虚拟表
4.16 模型
4.17 编辑虚拟表完成
4.18 用户管理
支持多层级权限分配,可精细化控制用户角色、数据源与任务操作权限,保障系统安全与协作效率。
4.19 创建用户管理
4.20 编辑用户管理
4.21 同步任务实例-离线同步
4.22 同步任务实例-实时同步