〔从零搭建〕数据集成平台部署指南

🔥🔥 AllData大数据产品是可定义数据中台,以数据平台为底座,以数据中台为桥梁,以机器学习平台为中层框架,以大模型应用为上游产品,提供全链路数字化解决方案。
✨杭州奥零数据科技官网:http://www.aolingdata.com
✨AllData开源项目:https://github.com/alldatacenter/alldata
✨Gitee组织:https://gitee.com/alldatacenter

摘要:数据集成平台基于开源项目Tis建设。数据集成平台(Tis)集成了FlinkX-CDC、DataX等大数据组件,提供一站式数据集成服务。文章内容主要为以下五部分:

一、在线演示环境
二、功能简介
三、数据同步能力
四、源码编译部署安装
五、访问数据集成平台页面

💡Tips:关注「公众号」大数据商业驱动引擎

在这里插入图片描述
🔹AllData数据中台线上正式环境:http://43.138.156.44:5173/ui_moat/
请联系市场总监获取账号密码
在这里插入图片描述
在这里插入图片描述
2.1 数据集成平台基于开源项目Tis建设

数据集成平台(Tis)集成了FlinkX-CDC、DataX等大数据组件,提供一站式数据集成服务。支持多种数据源,涵盖MySQL、Oracle、ElasticSearch等,兼容国产数据库,满足多源异构数据集成需求。

数据集成平台提供可视化操作界面,简化数据集成流程,降低操作难度。同时,具备实时与批量集成能力,确保数据及时准确。此外,还支持插件化扩展,用户可按需开发新插件,增强平台灵活性。助力企业高效完成数据集成任务,为数据中台建设提供有力支撑。

🔹Tis开源项目:https://github.com/datavane/tis
🔹Tis文档地址:https://tis.pub/docs/

2.2 数据集成平台功能特点:

  • 一站式开箱即用
  • 领域抽象简化复杂度
  • 多数据源支持
  • 功能模块丰富
  • 高效数据同步能力
  • 与调度系统整合
  • 实时与批量集成
  • 可视化操作界面

在这里插入图片描述

🔹Hive数据库数据同步能力演示(全量同步+分区同步)

🔹MySQL数据库数据同步能力演示(全量+增量同步)

🔹Oracle数据库数据同步能力演示(全量+增量同步)

🔹国产数据库达梦数据源DaMeng数据同步能力演示(全量同步)

🔹国产数据库人大金仓数据源KingBase数据同步能力演示(全量+增量同步)

3.1 支持数据库如下:
在这里插入图片描述

在这里插入图片描述
💡部署步骤:
在这里插入图片描述

4.1 环境准备

🔹操作系统:推荐使用Linux发行版(如Ubuntu或CentOS),因为大多数大数据技术和分布式系统都针对Unix-like系统进行了优化。

🔹Java环境:至少JDK 11及以上版本,配置环境变量JAVA_HOME,并将$JAVA_HOME/bin添加到PATH。

🔹Maven环境:Maven 3.6.x或更高版本,配置环境变量MAVEN_HOME,并将$MAVEN_HOME/bin添加到PATH。

🔹Git:用于克隆项目代码。

🔹数据库:支持MySQL、PostgreSQL等关系型数据库,需提前创建数据库并配置好用户权限。

🔹其他依赖:根据项目需求,可能需要安装Node.js、Python等。

4.2 源码编译部署获取安装包
在这里插入图片描述

🔹配置数据库连接:
在项目根目录下,找到数据库配置文件(如application.properties或application.yml),根据您的环境配置数据库连接信息,例如:
在这里插入图片描述

🔹配置其他参数:
根据项目需求,配置其他必要的参数,如日志路径、服务器端口等。

🔹启动项目:
使用Maven启动Tis项目:
在这里插入图片描述

🔹访问项目:
项目启动后,您可以通过浏览器访问Tis的Web界面。
通过页面访问,需启动ui_moat和ui_tis。

4.3 功能验证与使用

🔹数据源管理:
登录Tis平台后,首先进行数据源管理,添加需要集成的数据库、文件系统等数据源。

🔹任务配置:
配置数据集成任务,包括数据抽取、转换、加载等环节。

Tis支持多种数据源的Source和Sink组件,数据源支持KingBase, Hive, MongoDB, MySQL, DaMeng, Kafka, MariaDB, PostgreSQL, SqlServer, TDFS, Oracle;

数据目的支持SqlServer, Doris, Spark, StarRocks, MySQL, Aliyun-ODPS, PostgreSQL, Hive, ClickHouse, MongoDB, Kafka, Oracle, TDFS, KingBase, ElasticSearch, DaMeng, MariaDB。
在这里插入图片描述

🔹任务调度与监控:
配置任务的调度策略,如定时调度、依赖调度等。通过Tis平台监控任务的执行状态和日志,确保任务正常运行。

在这里插入图片描述
5.1 进入数据集成平台
请添加图片描述

5.2 数据同步任务中心
在这里插入图片描述

5.3 数据同步任务管理
在这里插入图片描述

5.4 数据库管理中心

🔹Mysql8校验通过
在这里插入图片描述

🔹Oracle 19c校验通过
在这里插入图片描述

🔹Doris 2.0.7校验通过
在这里插入图片描述

🔹Hive2.4.2校验通过
在这里插入图片描述

🔹达梦国产数据库校验通过
在这里插入图片描述

🔹人大金仓国产数据库校验通过
在这里插入图片描述

🔹支持其他数据源扩展
在这里插入图片描述

5.5 数据同步设置 --包含业务线管理、DataX执行器、Flink Cluster、插件配置、操作日志、系统异常。

🔹业务部门管理
在这里插入图片描述

🔹插件配置管理
在这里插入图片描述

🔹操作日志管理
在这里插入图片描述

🔹操作日志详情
在这里插入图片描述

🔹异常日志管理
在这里插入图片描述
在这里插入图片描述

5.6 Hive数据库同步能力演示

🔹第一步配置基本信息与插件
在这里插入图片描述

🔹 Reader设置,配置Hive数据源Reader,Doris数据目的Writer
在这里插入图片描述

5.7 Hive元数据中心配置,配置HiveMetaStore

🔹 配置选择分区表(二选一)
在这里插入图片描述

🔹 配置选择全量表(二选一)
在这里插入图片描述

🔹 添加HiveServer2,校验通过
在这里插入图片描述

🔹 添加HDFS,校验通过
在这里插入图片描述

🔹 Reader选择导入表,可以多选进行整库多表批量同步,可以单表同步
在这里插入图片描述

🔹批量设置表,对表的同步字段,表的主键进行筛选
在这里插入图片描述

🔹选择主键与同步字段
在这里插入图片描述

🔹选择Doris目的表
在这里插入图片描述

🔹表映射,支持自定义目的表名
在这里插入图片描述

🔹确认同步任务信息,创建同步任务
在这里插入图片描述

🔹查看自动化生成的DataX脚本
在这里插入图片描述

🔹查看自动化生成的Table DDL脚本
在这里插入图片描述

🔹创建同步任务实例成功
在这里插入图片描述

🔹查看任务主控台
在这里插入图片描述

🔹任务管理,可以对任务进行重新配置与修改
在这里插入图片描述

🔹触发构建Hive到Doris的同步任务
在这里插入图片描述

🔹Hive表同步成功
在这里插入图片描述

🔹查看操作历史
在这里插入图片描述

🔹查看Hive表,Hive表重复数据有25条,主键唯一的只有5条
在这里插入图片描述

🔹查看同步结果Doris表,主键设置为transaction_id,同步结果保证5条,精准准确同步无误
在这里插入图片描述

5.8 MySQL数据库同步能力演示 --同步流程与上诉类似,包含增量同步的流程,后续补充文档。

🔹创建Mysql到Doris的同步任务
在这里插入图片描述

🔹同步的是Mysql多表同步到Doris
在这里插入图片描述

🔹生成的同步脚本
在这里插入图片描述

🔹生成的Doris DDL脚本
在这里插入图片描述

🔹执行结果,成功同步
在这里插入图片描述

🔹查看Mysql源表account的数据
在这里插入图片描述

🔹预览Doris目的表account_sink的数据
在这里插入图片描述

5.9 Mysql增量同步到Doris进行配置增量同步

🔹创建增量通道
在这里插入图片描述

🔹增加flink引擎,增量引擎配置
在这里插入图片描述

🔹测试Flink集群连接
在这里插入图片描述

🔹配置增量同步的Source/Sink
在这里插入图片描述

🔹自动生成同步程序,可以选SQL与DStream
在这里插入图片描述

🔹部署增量同步任务成功
在这里插入图片描述

🔹进入Mysql增量同步通道
在这里插入图片描述

5.10 Mysql增量同步任务成功运行
在这里插入图片描述

🔹查看Mysql增量同步配置
在这里插入图片描述

🔹通过Flink UI查看实时CDC任务运行
在这里插入图片描述

🔹增量同步结果
在这里插入图片描述

🔹Mysql测试account增加4条数据,源表
在这里插入图片描述

🔹Doris检查增量同步结果,结果表–如图,成功同步了4条数据。
在这里插入图片描述

5.11 Oracle数据同步能力演示 --同步流程与上述类似,包含增量同步的流程,后续补充文档

5.12 达梦国产数据库同步能力演示

🔹新增国产数据库达梦数据源
在这里插入图片描述

🔹选择国产数据库达梦数据源Reader与Doris的Writer
在这里插入图片描述

🔹国产数据库达梦数据源配置Reader
在这里插入图片描述

🔹新建数据源连接(可选,如果没有创建数据源,新建数据源连接)
在这里插入图片描述

🔹选择国产数据库达梦的源表dameng_db.TestTable
在这里插入图片描述

🔹批量国产数据库达梦的源表-设置表
在这里插入图片描述

🔹选择同步数据字段
在这里插入图片描述

🔹选择Doris目标表储
在这里插入图片描述

🔹国产数据库达梦表映射到Doris
在这里插入图片描述

🔹自动生成表同步脚本
在这里插入图片描述

🔹创建国产数据库达梦同步到Doris的任务
在这里插入图片描述

🔹查看国产数据库达梦同步到Doris任务详情
在这里插入图片描述

🔹触发国产数据库达梦同步到Doris任务
在这里插入图片描述

🔹查看国产数据库达梦TestTable表数据,1000条
在这里插入图片描述

🔹同步国产数据库DaMeng成功创建Doris表
在这里插入图片描述

🔹成功同步1000条数据,验证通过
在这里插入图片描述

🔹查看同步结果,查看Doris test表数据,1000条验证通过
在这里插入图片描述

5.13 人大金仓国产数据库同步能力演示 --同步流程与上诉类似,包含增量同步的流程,后续补充文档

🔹新增国产数据库人大金仓KingBase数据源
在这里插入图片描述

🔹选择国产数据库人大金仓KingBase Reader与Doris的Writer
在这里插入图片描述

🔹配置国产数据库人大金仓KingBase Reader
在这里插入图片描述

🔹新建数据源连接(可选,如果没有创建数据源,新建数据源连接)
在这里插入图片描述

🔹选择国产数据库人大金仓KingBase的源表test
在这里插入图片描述

🔹批量国产数据库人大金仓KingBase的源表-设置表
在这里插入图片描述

🔹选择同步国产数据库人大金仓KingBase-数据字段
在这里插入图片描述

🔹选择Doris目标表存储
在这里插入图片描述

🔹国产数据库人大金仓KingBase映射到Doris
在这里插入图片描述

🔹自动生成表同步脚本
在这里插入图片描述

🔹创建国产数据库人大金仓KingBase同步到Doris的任务
在这里插入图片描述

🔹查看国产数据库人大金仓KingBase同步到Doris任务详情
在这里插入图片描述

🔹触发国产数据库人大金仓KingBase同步到Doris任务
在这里插入图片描述

🔹查看国产数据库人大金仓KingBase源表test数据,合计17条数据
在这里插入图片描述

🔹查看同步到Doris目的表的数据,同步通过,17条数据验证成功
在这里插入图片描述

5.14 国产数据库人大金仓KingBase增量同步到Doris能力演示

🔹国产数据库人大金仓实时同步到Doris任务
在这里插入图片描述

🔹配置国产数据库人大金仓的增量引擎
在这里插入图片描述

🔹配置国产数据库人大金仓的SourceFactory与增量同步Factory
在这里插入图片描述

🔹自动生成国产数据库人大金仓的实时任务代码
在这里插入图片描述

🔹部署国产数据库人大金仓的实时增量同步任务,部署成功
在这里插入图片描述

🔹国产数据库人大金仓的实时增量同步任务运行成功
在这里插入图片描述

🔹国产数据库人大金仓KingBase表test数据为17条,测试增加7条数据,源数据增加到24条
在这里插入图片描述

🔹实时同步结果验证,Doris结果表test数据由17条增加到24条,验证通过
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

AllData公司负责人

AllData数据中台知识星球

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值