目录
方案2:三个时间点,T0开始订阅,T1是做初始化,T2是进行增量merge(第一次merge)
前言
之前探讨的,整理一下简单的思路
mysql -> hive 进行同步。
主要的问题点在于,订阅增量 以及初始化,之间是有时间间隔的。
怎么做才能保证数据的准确性
前提:都是通过canal 读取binlog。
canal进行抽数。弄到kafka 然后flink进行消费。
解决方案
方案1. 可以使用flink cdc进行消费
https://blog.youkuaiyun.com/u011532105/article/details/109644444
作者:收数佬
大概就是这么个新东西,在1.11之后才出现的。不过没有仔细调研,后面可以读读看。
-
mysql开启binlog
-
canal同步binlog数据写入到kafka
-
flink读取kakfa中的binlog数据进行相关的业务处理。
Apache Flink CDC可以直接从数据库获取到binlog供下游进行业务计算分析。简单来说链