
CDC同步系列
文章平均质量分 79
数据新玩法
这个作者很懒,什么都没留下…
展开
-
Debezium系列- snapshot锁表流程详解
背景采用Debezium 同步MySQL表的时候,同一张表有时候有时会锁表,有时不会锁表。为了弄清楚原因梳理了snapshot的流程snapshot 流程图如何排查Debezium锁问题引起的主从延迟?谁持有的锁?继续查询information_schema.innodb_locks、innodb_lock_waits、innodb_trx表select * from information_schema.innodb_locks;select * from information_schem原创 2020-10-19 10:08:47 · 3822 阅读 · 0 评论 -
Debezium系列- snapshot写入慢采坑记录
问题描述测试集群使用Debezium snapshot一张 2000多万的表耗时 40多分钟,使用线上集群snapshot 耗时 6小时51分钟,线上集群snapshot慢了10倍问题分析测试集群和线上集群不同测试集群kafka单个broker,线上集群3个broker每个broke挂4个盘测试集群默认创建topic Replicas=1,线上集群 Replicas=2排查过程开始怀疑是线上磁盘可能有坏道导致写入慢,联系运维排查磁盘OK。有点怀疑是副本数的问题,由于对kafka有一定的了解原创 2020-10-13 15:32:04 · 1660 阅读 · 0 评论 -
Debezium系列- kafka connet debug
背景使用Debezium采集MySQL Binlog 集成到Hive中,采坑(一)(二) 中对问题的猜想还没得到证实,又发现了 Debezium 采集 MySQL 时间转换时间错乱问题,关于时间错乱问题后续文章中会详细分析,于是走上kafka connect的debug之路。原理根本原理就是利用远程debug 模式:服务端远程开启debug模式,本地链接远程端口调试集合。但是如何开启呢?下面将细细道来开启过程服务端开启debug哈哈!!!其实开启 debug 模式很简单,在$confluent_原创 2020-08-25 15:21:46 · 987 阅读 · 0 评论 -
Debezium系列-Confluence 集成debezium hdfs-sink 将binlog导入Hive
环境准备L必须有docker环境环境中必须有zookeeper、kafka、MySQL、kafka-connector镜像confluentinc-kafka-connect-hdfs-5.5.1.zip 插件confluentinc-kafka-connect-hdfs-5.5.1.zip下载地址:https://www.confluent.io/hub/confluentinc/kafka-connect-hdfsTip:如果之前有启动过这几个docker镜像的, kafka和kafka-原创 2020-08-25 14:23:53 · 900 阅读 · 1 评论 -
Debezium系列-Debzium MySQL Binlog 集成到Hive 坑(二)
采集配置{ "name": "avro-inventory-customers", "config": { "connector.class": "io.debezium.connector.mysql.MySqlConnector", "tasks.max": "1", "database.hostname": "psd-hadoop039", "database.port": "3306", "databa原创 2020-08-25 11:36:54 · 752 阅读 · 0 评论 -
Debezium系列-Debzium MySQL Binlog 集成到Hive 坑(一)
环境说明kakfa 2.5debezium-debezium-connector-mysql-1.2.0confluentinc-kafka-connect-hdfs-5.5.1( hadoop 2.x 的)Debzium Binlog connector 采集配置{ "name": "json-inventory-customers", "config": { "connector.class": "io.debezium.connector.mysql.My原创 2020-08-04 18:44:17 · 1519 阅读 · 0 评论 -
Debezium系列-Debezium Docker 快速入门
本文使用debezium 1.2,没有太多的干货,废话不多说,上来就开干,先来个Getting Started ! 快乐一下! 官方文档 , Getting Started 是基于docker的没有docker环境的小伙伴先自行准备。为了方便快速部署,将docker命令搬运过来,docker命令添加了参数: -dzookeeperdocker run -d -it --rm --name zookeeper -p 2181:2181 -p 2888:2888 -p 3888:3888 debezium原创 2020-07-21 16:02:57 · 3248 阅读 · 0 评论 -
Debezium系列-数据库日志变更的CDC简单对比
背景1)sqoop 同步的一些不足实时性低增量同步,无法同步物理删除的记录有些表是有修改没有修改时间字段,或者不维护修改时间字段,及时数据量很大也没办法增量同步数据同步时读取数据库产生大量的IO2)用户越来越渴望实时性的数据基于数据日志变更的CDC简单对比目前了解组件有 maxwell、canal、debezium、flinkx (如果还要别的欢迎留言补充)组件CanalMaxwellDebeziumFlinx开源方阿里zendeskredhat袋鼠云原创 2020-07-20 14:10:11 · 2752 阅读 · 3 评论