Flink 爬坑【2】cdc数据同步及分区表异常

在使用Flink和CDC进行准实时数据同步时,遇到分区表识别和数据丢失的问题。由于表按分区键和时间二级分区,Flink只能识别实例表,导致数据处理错误。在CDC日志显示所有操作捕获的情况下,数据丢失是因为CDC删除操作基于主键ID,误删了两个分区的数据。解决方案是新增分区键字段,设置联合主键,并修改Flink作业的sink主键,避免数据冲突。由于数据量大,采用过渡表进行数据割接以减少服务中断。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

背景

业务中需要准实时同步,但是需要对数据进行处理,技术选型flink+cdc形式。通过 cdc同步数据流到flink,再由flink进行处理,最后输出到北向数据库。

隐患

有张要同步的表是分区表,它并不是按时间分区,而是按某个字段作为分区键,在一级分区后再按时间进行二级分区。
情况大概是这样
https://blog.youkuaiyun.com/weixin_45893488/article/details/104844933?spm=1001.2014.3001.5502

我们的工作是从 两张 分区表中获取数据,再输出到 一张 结果表里
ps 这就是出问题的关键

问题

第一个问题 二级分区表无法识别,必须定义到最下层的实例表才可以。
flink 只认实例表,分区表是一张结构没有实例。
第二个问题 在任务上线后运行正常无报错,但在统计的时候发现数据丢失,有 1/3 的数据消失了。
cdc的日志显示捕获了所有的操作,那么问题在哪呢?
通过binlog我们还原了问题
在这里插入图片描述

原因

由于我们设置了分区,所以对于flink来说就变成了两张表 而不是一张表。分区键 是一个状态字段。
所以对于flink来说他的工作就变成了这样两个并行的工作

分区表1
通过cdc捕获到数据后,进行数据操作,包括增删改

分区表2
通过cdc捕获到数据后,进行数据操作,包括增删改

理论上,对我们的操作来说,我们是更新了这张表的状态字段。应该是先从分区表1新增,再从分区表1中删除,在到分区表2新增。

但是对于 flink 来说 这两个工作是并行的

也就是说他可能是 两个都先新增了(做了 ON DUPLICATE KEY UPDATE 操作,即不存在就新增,存在就更新)再删分区表1中的数据了,但是目标表中他的主键只有id,所以就都删了。

解决

根本原因是cdc捕获删除的时候根据唯一主键id把两个分区的数据都删了,如果能区分两个分区中的数据就能解决问题。

  1. 新增分区键字段
  2. 更新分区字段为非空
  3. 设置主键设置为联合主键(id,key)
  4. 修改job中TableAPI里定义的 sink 主键
  5. 打包jar 重新启动job

ps 由于数据量太大了,本次选择了新增过渡表,在做数据割接的方案,否则停机停服太久容易出问题。

评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值