
ETL
文章平均质量分 75
ETL
Bulut0907
大数据、机器学习、编程语言、IT相关技术分享, 喜欢请关注、点赞、收藏哦!
展开
-
Canal Admin配置管理和节点运维Web的安装部署
目录1. 组件说明2. 下载解压3. 初始化元数据库canal_manager4. canal.admin-1.1.5/conf/application.yml5. canal.deployer-1.1.5/conf/canal.properties6. 启动Canal Admin提供一种更方便的管理canal.deploy、instance的操作1. 组件说明组件版本服务器安装教程作用canal1.1.5canal1, canal2, canal3canal HA安装原创 2021-10-09 22:24:48 · 2362 阅读 · 0 评论 -
使用Canal ClientAdapter实现Mysql的DDL、DML同步到PostgreSQL
目录1. 说明2. canal.deploy配置3. 下载ClientAdapter4. ClientAdapter配置4.1 conf/application.yml配置(后面改mysql)1. 说明各组件说明如下表:组件版本服务器安装教程作用canal1.1.5canal1, canal2, canal3canal HA安装 + mysql多节点自动切换zookeeper3.6.3canal1, canal2, canal3zookeeper全分布式安原创 2021-09-24 07:26:15 · 4486 阅读 · 0 评论 -
canal同步mysql到PostgreSQL数据库自己编写代码的客户端实战
目录1. 准备工作1.1 active mysql查看1.2 mysql数据情况2. canal.deploy配置修改2.2 删除conf/example,建立新的example实例3. 同步代码的开发3.1 3.3 重复测试的脚本canal高可用和mysql节点自动切换的部署,可以参考我的这篇文章1. 准备工作1.1 active mysql查看因为我们部署了mysql节点自动切换,我们需要查看现在同步的是哪一台mysql服务器先查看example_db实例运行的服务器[zk: can原创 2022-05-23 09:08:12 · 1831 阅读 · 0 评论 -
canal将binlog直接同步到kafka
目录1. 说明2. 配置修改2.1 conf/canal.properties修改2.2 新建一个example_kafka实例2.3 kafka_sync.java代码的开发1. 说明canal只需配置一个kafka的example实例,就可以直接将binlog同步到kafka, 此时kafka相当于一个id为1001的client各组件说明如下表:组件版本服务器安装教程canal1.1.5canal1, canal2, canal3canal HA安装 + mysq原创 2021-06-29 00:07:07 · 2830 阅读 · 4 评论 -
centos7上基于zookeeper完成canal1.1.5的高可用HA搭建 + mysql多节点解析自动切换
目录1. 服务器列表2. zookeeper的分布式安装3. 安装mysql(master-master架构)3.1 mysql的安装3.2 master-master架构的配置1. 服务器列表服务器名服务器地址canal1192.168.23.31canal2192.168.23.32canal3192.168.23.332. zookeeper的分布式安装可以参考我的这篇zookeeper的分布式安装教程这里我们在3台服务器上进行安装, 我们这里安装的原创 2021-06-24 22:52:06 · 2328 阅读 · 2 评论 -
canal 1.1.5源码编译
目录1. 编译背景2. 准备工作3. 源码的修改3.1 client-adapter\pom.xml3.2 client-adapter\rdb\pom.xml3.3 client-adapter\launcher\pom.xml3.4 pom.xml3.5 client-adapter\rdb\src\main\java\com\alibaba\otter\canal\client\adapter\rdb\support\SyncUtil.java4. 编译打包1. 编译背景canal adapter原创 2021-09-08 10:06:06 · 2931 阅读 · 0 评论 -
canal先全量-后增量的同步模拟实战
目录1. 全量数据导出同步1.1 active mysql查看1.2 canal2 mysql数据的全量导出1.2.1. 我们先看mysql的数据1.2.2. 导出mysql的全量数据2. example instance的配置2.1 修改conf/canal.properties2.2 删除conf/example,建立新的example实例3. client端代码的开发3.1 对db1和db2的数据进行修改3.2 pom.xml添加的依赖3.3 db1_sync.java开发canal高可用和mys原创 2021-06-27 12:04:27 · 6217 阅读 · 0 评论 -
数据同步工具DataX从Mysql同步数据到HDFS实战
会先写入临时文件,如果成功,则将临时文件rename,再删除临时文件;如果失败,直接删除临时文件。会在该文件名后添加随机的后缀,作为每个线程写入的实际文件名。我自己在下面的模板文件中添加了一些说明注释。原创 2022-11-24 10:36:43 · 2159 阅读 · 0 评论 -
数据同步工具DataX的安装和使用说明
下面运行示例同步程序,模拟产生10万条一样的数据,有5个字段。然后输出但不进行print。FrameWork部分设置了同步错误容忍率和每秒流量限制。如果想同步一个数据源的数据,到另外一个数据库,可以通过如下方式,查看数据的同步模板。提供了并发数量、字节流(每秒同步字节)、记录流(每秒同步数量)三种流控模式。其中channel表示该job总的并发数。原创 2022-11-23 08:40:15 · 1132 阅读 · 0 评论 -
数据同步工具DataX介绍和原理
DataX是一个各种数据源之间的离线数据同步工具DataX的设计理念是一种星型数据链路。DataX作为中间传输载体负责连接各种数据源,通过reader从一个数据源读取数据,再通过writer将数据写入另一个数据源。这样可以以一种插件的方式拓展其它数据源支持ORC格式任务执行完,有执行统计信息在core部分有数据校验功能只能在一台服务器,以多线程的方式运行不支持分布式。但可以再多台服务器部署,对不同的数据库表进行数据同步。原创 2022-11-21 08:39:05 · 2560 阅读 · 0 评论 -
Java/scala使用内置嵌入式embedded debezium全量和增量同步Mysql binlog数据
目录1. 背景2. 添加依赖3. 同步代码1. 背景Debezium通常基于Kafka启动一个Kafka Connect服务,之后可以向Debezium提交Mysql、PostgresSQL等connector任务进行同步数据,数据被保存到Kafka中。分布式的Kafka Connect服务能提供容错性和可拓展性但是我们有时不想部署一套Kafka集群和Debezium的Kafka Connect服务。而是通过一种更轻量级的方式,将Debezium的Mysql、PostgresSQL等connector原创 2022-07-25 09:03:28 · 4953 阅读 · 0 评论 -
Apache Flume 1.9.0的安装和使用
目录1. 下载解压2. 修改flume-env.sh3. Flume使用1. 下载解压[root@bigdata003 ~]# wget https://dlcdn.apache.org/flume/1.9.0/apache-flume-1.9.0-bin.tar.gz[root@bigdata003 ~]# [root@bigdata003 ~]# tar -zxvf apache-flume-1.9.0-bin.tar.gz2. 修改flume-env.sh拷贝得到flume-env.sh原创 2022-06-23 09:06:53 · 726 阅读 · 0 评论