Flink CDC + Hudi 海量数据入湖 重写

  • 2017 年,基于 Jstorm + Canal 的方式实现了第一个版本的实时数据集成方案。但是此方案存在诸多问题,比如无法保证数据的一致性、吞吐率较低、难以维护。
  • 2019 年,随着 Flink 社区的不断发展,它补齐了很多重要特性,因此基于 Flink + Canal 的方式实现了第二个版本的实时数据集成方案。
  • 但是此方案依然不够完美,经历了内部调研与实践,2022 年初,我们全面转向 Flink CDC 。

1、Flink + Canal 的实时数据入湖架构 

Flink 启动之后,首先读取当前的 Binlog 信息,标记为 StartOffset ,通过 select 方式将全量数据采集上来,发往下游 Kafka。全量采集完毕之后,再从 startOffset 采集增量的日志信息,发往 Kafka。最终 Kafka 的数据由 Spark 消费后写往 Hudi。

但是此架构存在以下三个问题:

  • 全量与增量数据存在重复:因为采集过程中不会进行锁表,如果在全量采集过程中有数据变更,并且采集到了这些数据,那么这些数据会与 Binlog 中的数据存在重复;

  • 需要下游进行 Upsert 或 Merge 写入才能剔除重复的数据,确保数据的最终一致性;

  • 需要两套计算引擎,再加上消息队列 Kafka 才能将数据写入到数据湖 Hudi 中,过程涉及组件多、链路长,且消耗资源大。

基于以上问题,我们整理出了数据集成的核心需求:

 

  1. 全量增量自动切换,并保证数据的准确性。Flink + Canal 的架构能实现全量和增量自动切换,但无法保证数据的准确性;

  2. 最大限度地减少对源数据库的影响,比如同步过程中尽量不使用锁、能流控等;

  3. 能在已存在的任务中添加新表的数据采集,这是非常核心的需求,因为在复杂的生产环境中,等所有表都准备好之后再进行数据集成会导致效率低下。此外,如果不能做到任务的合并,需要起很多次任务,采集很多次 Binlog 的数据,可能会导致 DB 机器带宽被打满;

  4. 能同时进行全量和增量日志采集,新增表不能暂停日志采集来确保数据的准确性,这种方式会给其他表日志采集带来延迟;

  5. 能确保数据在同一主键 ID 下按历史顺序发生,不会出现后发生的事件先发送到下游。

Flink CDC 很好地解决了业务痛点,并且在可扩展性、稳定性、社区活跃度方面都非常优秀。

  • 首先,它能无缝对接 Flink 生态,复用 Flink 众多 sink 能力,使用 Flink 数据清理转换的能力;

  • 其次,它能进行全量与增量自动切换,并且保证数据的准确性;

  • 第三,它能支持无锁读取、断点续传、水平扩展,特别是在水平扩展方面,理论上来说,给的资源足够多时,性能瓶颈一般不会出现在 CDC 侧,而是在于数据源/目标源是否能支持读/写这么多数据。

二、Flink CDC 实践问题与优化

上图为 Flink CDC 2.0 的架构原理。它基于 FLIP-27 实现,核心步骤如下:

  1. Enumerator 先将全量数据拆分成多个 SnapshotSplit,然后按照上图中第一步将 SnapshotSplit 发送给 SourceReader 执行。执行过程中会对数据进行修正来保证数据的一致性;

  2. SnapshotSplit 读取完成后向 Enumerator 汇报已读取完成的块信息;

  3. 重复执行 (1) (2) 两个步骤,直到将全量数据读取完毕;

  4. 全量数据读取完毕之后,Enumerator 会根据之前全量完成的 split 信息, 构造一个 BinlogSplit。发送给 SourceRead 执行,读取增量日志数据。

问题一:新增表会停止 Binlog 日志流

        在已存在的任务中添加新表是非常重要的需求, Flink CDC 2.0 也支持了这一功能。但是为了确保数据的一致性,Flink CDC 2.0 在新增表的流程中,需要停止 Binlog 日志流的读取,再进行新增表的全量数据读取。等新增表的全量数据读取完毕之后,再将之前停止的 Binlog 任务重新启动。这也意味着新增表会影响其他表的日志采集进度。然而我们希望全量和增量两个任务能够同时进行,为了解决这一问题,我们对 Flink CDC 进行了拓展,支持了全量和增量日志流并行读取,步骤如下:

  1. 程序启动后,在 Enumerator 中创建 BinlogSplit ,放在分配列表的第一位,分配给 SourceReader 执行增量数据采集;

  2. 与原有的全量数据采集一样,Enumerator 将全量采集切分成多个 split 块,然后将切分好的块分配给 SourceReader 去执行全量数据的采集;

  3. 全量数据采集完成之后,SourceReader 向 Enumerator 汇报已经完成的全量数据采集块的信息;

  4. 重复 (2) (3) 步,将全量的表采集完毕。

以上就是第一次启动任务,全量与增量日志并行读取的流程。新增表后,并行读取实现步骤如下:

  1. 恢复任务时,Flink CDC 会从 state 中获取用户新表的配置信息;

  2. 通过对比用户配置信息与状态信息,捕获到要新增的表。对于 BinlogSplit 任务,会增加新表 binlog 数据的采集;对于 Enumerator 任务,会对新表进行全量切分;

  3. Enumerator 将切分好的 SnapshotSplit 分配给 SourceReader 执行全量数据采集;

  4. 重复步骤 (3),直到所有全量数据读取完毕。

然而,实现全量和增量日志并行读取后,又出现了数据冲突问题。

        如上图所示, Flink CDC 在读取全量数据之前,会先读取当前 Binlog 的位置信息,将其标记为 LW,接着通过 select 的方式读取全量数据,读取到上图中 s1、s2、 s3、s4 四条数据。再读取当前的 Binlog 位置,标记为 HW, 然后将 LW 和 HW 中变更的数据 merge 到之前全量采集上来的数据中。经过一系列操作后,最终全量采集到的数据是 s1、s2、s3、s4 和 s5。

而增量采集的进程也会读取 Binlog 中的日志信息,会将 LW 和 HW 中的 s2、s2、s4、s5 四条数据发往下游。

上述整个流程中存在两个问题:首先,数据多取,存在数据重复,上图中红色标识即存在重复的数据;其次,全量和增量在两个不同的线程中,也有可能是在两个不同的 JVM 中,因此先发往下游的数据可能是全量数据,也有可能是增量数据,意味着同一主键 ID 到达下游的先后顺序不是按历史顺序,与核心需求不符。

针对数据冲突问题,我们提供了基于 GTID 实现的处理方案。

首先,为全量数据打上 Snapshot 标签,增量数据打上 Binlog 标签;其次,为全量数据补充一个高水位 GTID 信息,而增量数据本身携带有 GTID 信息,因此不需要补充。将数据下发,下游会接上一个 KeyBy 算子,再接上数据冲突处理算子,数据冲突的核心是保证发往下游的数据不重复,并且按历史顺序产生。

如果下发的是全量采集到的数据,且此前没有 Binlog 数据下发,则将这条数据的 GTID 存储到 state 并把这条数据下发;如果 state 不为空且此条记录的 GTID 大于等于状态中的 GTID ,也将这条数据的 GTID 存储到 state 并把这条数据下发;

通过这种方式,很好地解决了数据冲突的问题,最终输出到下游的数据是不重复且按历史顺序发生的。

然而,新的问题又产生了。在处理算法中可以看出,为了确保数据的不重复并且按历史顺序下发,会将所有记录对应的 GTID 信息存储在状态中,导致状态一直递增。

清理状态一般首选 TTL,但 TTL 难以控制时间,且无法将数据完全清理掉。第二种方式是手动清理,全量表完成之后,可以下发一条记录告诉下游清理 state 中的数据。

解决了以上所有问题,并行读取的最终方案如下图所示。

首先,给数据打上四种标签,分别代表不同的状态:

  • SNAPSHOT:全量采集到的数据信息。

  • STATE_BINLOG:还未完成全量采集, Binlog 已采集到这张表的变更数据。

  • BINLOG:全量数据采集完毕之后,Binlog 再采集到这张表的变更数据。

  • TABLE_FINISHED:全量数据采集完成之后通知下游,可以清理 state。

具体实现步骤如下:

  1. 分配 Binlog ,此时 Binlog 采集到的数据都为 STATE_BINLOG 标签;

  2. 分配 SnapshotSplit 任务,此时全量采集到的数据都为 SNAPSHOT 标签;

  3. Enumerator 实时监控表的状态,某一张表执行完成并完成 checkpoint 后,通知 Binlog 任务。Binlog 任务收到通知后,将此表后续采集到的 Binlog 信息都打上 BINLOG 标签;此外,它还会构造一条 TABLE_FINISHED 记录发往下游做处理;

  4. 数据采集完成后,除了接上数据冲突处理算子,此处还新增了一个步骤:从主流中筛选出来的 TABLE_FINISHED 事件记录,通过广播的方式将其发往下游,下游根据具体信息清理对应表的状态信息。

问题二:写 Hudi 时存在数据倾斜

        如上图,Flink CDC 采集三张表数据的时候,会先读取完 tableA 的全量数据,再读取tableB 的全量数据。读取 tableA 的过程中,下游只有 tableA 的 sink 有数据流入。

我们通过多表混合读取的方式来解决数据倾斜的问题。

引入多表混合之前,Flink CDC 读取完 tableA 的所有 chunk,再读取 tableB 的所有 chunk。实现了多表混合读取后,读取的顺序变为读取 tableA 的 chunk1、tableB 的 chunk1、tableC 的 chunk1,再读取 tableA 的 chunk2,以此类推,最终很好地解决了下游 sink 数据倾斜的问题,保证每个 sink 都有数据流入。

我们对多表混合读取的性能进行了测试,由 TPCC 工具构造的测试数据,读取了 4。张表,总并行度为 8,每个 sink 的并行度为 2,写入时间由原来的 46 分钟降至 20 分钟,性能提升 2.3 倍。

需要注意的是,如果 sink 的并行度和总并行度相等,则性能不会有明显提升,多表混合读取主要的作用是更快地获取到每张表下发的数据。

问题三:需要用户手动指定 schema 信息

用户手动执行 DB schema 与 sink 之间 schema 映射关系,开发效率低,耗时长且容易出错。

为了降低用户的使用门槛,提升开发效率,我们实现了 Oracle catalog ,让用户能以低代码的方式、无需指定 DB schema 信息与 sink schema 信息的映射关系,即可通过 Flink CDC 将数据写入到 Hudi。

三、未来规划

第一, 支持 schema 信息变更同步。比如数据源发生了 schema 信息变更,能够将其同步到 Kafka 和 Hudi 中;支持平台接入更多数据源类型,增强稳定性,实现更多应用场景的落地。

第二, 支持 SQL 化的方式,使用 Flink CDC 将数据同步到 Hudi 中,降低用户的使用门槛。

第三, 希望技术更开放,与社区共同成长,为社区贡献出自己的一份力量。

提问Qustions&解答Answers

Q1

断点续传采集如何处理?

断点续传有两种,分为全量和 Binlog。但它们都是基于 Flink state 的能力,同步的过程中会将进度存储到 state 中。如果失败了,下一次再从 state 中恢复即可。

Q2

MySQL 在监控多表使用 SQL 写入 Hudi 表中的时候,存在多个 job,维护很麻烦,如何通过单 job 同步整库?

我们基于 GTID 的方式对 Flink CDC 进行了拓展,支持任务中新增表,且不影响其他表的采集进度。不考虑新增表影响到其他表进度的情况下,也可以基于 Flink CDC 2.2 做新增表的能力。

Q3

顺丰这些特性会在 CDC 开源版本中实现吗?

目前我们的方案还存在一些局限性,比如必须用 MySQL 的 GTID,需要下游有数据冲突处理的算子,因此较难实现在社区中开源。

Q4

Flink CDC 2.0 新增表支持全量 + 增量吗?

是的。

Q5

GTID 去重算子会不会成为性能瓶颈?

经过实践,不存在性能瓶颈,它只是做了一些数据的判断和过滤。

<think>嗯,用户现在想比较Hudi和Hive在实时数据处理中的适用场景。我需要先回顾一下之前的问题和回答。之前他们问的是实时数据选哪种数据库,我推荐了HBase、TDengine、Redis这些,但这里用户提到了Hudi和Hive,这两个都是大数据领域的工具,但用途不同。 首先,Hive是传统的基于Hadoop的数据仓库工具,主要用于批处理,支持SQL查询,但延迟较高。而Hudi是一种数据技术,支持实时数据的增量处理和更新,适合需要低延迟的场景。用户可能是在构建实时数据或者需要处理CDC(变更数据捕获)的情况下考虑这两者。 根据用户提供的引用,Hudi能够使用行式格式处理实时流数据,而批处理时切换为列式格式,并且支持CDC数据的实时写。而Hive更适合离线分析,处理静态数据。需要指出两者的架构差异,比如Hudi依赖Spark或Flink进行计算,而Hive基于MapReduce或Tez。 用户可能想知道在实时数据处理中,比如流式处理、数据更新、事务支持等方面,Hudi和Hive各自的优缺点。需要对比两者的写性能、查询延迟、数据更新能力,以及适用场景。例如,Hudi支持ACID事务,适合需要频繁更新的场景;而Hive更适合一次性大批量加载,查询历史数据。 另外,用户引用的资料中提到Hudi与HBase、Kudu的对比,可能也需要简要提及Hudi与其他实时数据库的不同,但重点还是在Hive和Hudi之间。还要注意Hive 3之后的一些改进,比如LLAP(Live Long and Process)可能提升了部分实时查询能力,但本质上还是批处理导向。 最后,需要给出选型建议,根据用户的具体需求,比如实时性要求、数据更新频率、查询类型(点查还是复杂分析)等因素,推荐适合的工具。可能还需要提到混合架构的可能性,比如用Hudi处理实时数据,Hive用于离线分析,两者结合使用。</think>### Hudi vs Hive 实时数据处理能力对比 #### 一、架构设计差异 | **特性** | **Apache Hudi** | **Apache Hive** | |---------------------|----------------------------------------------|----------------------------------------------| | **数据模型** | 支持增量更新、删除(通过COW/MOR表类型)[^1] | 静态批处理,仅追加(UPDATE需重写全分区) | | **计算引擎依赖** | 原生集成 Spark/Flink(流批一体)[^2] | 依赖 MapReduce/Tez(批处理为主) | | **存储格式** | 支持 Parquet(列存)、Avro(行存)混合模式 | 主要面向 ORC/Parquet(纯列存) | | **实时性** | 分钟级延迟(支持流式写) | 小时级延迟(需周期性分区加载) | --- #### 二、实时场景核心能力对比 ##### 1. **数据更新效率** - **Hudi**: - **Copy-on-Write (COW)**:直接修改数据文件(适合低频更新) - **Merge-on-Read (MOR)**:增量日志合并(高频更新延迟 <5分钟) ```sql -- Hudi UPSERT 操作示例(Flink SQL) INSERT INTO hudi_table SELECT *, CURRENT_TIMESTAMP AS ts FROM kafka_source ON DUPLICATE KEY UPDATE ... ``` - **Hive**: - 仅支持 `INSERT OVERWRITE` 全分区覆盖 - 单行更新需重写整个分区(TB级数据成本高) ##### 2. **查询性能** - **Hudi**: - 增量查询:仅扫描变更文件(如 `hoodie_timeline`) - 支持时间旅行(Time Travel)查询历史快照 ```python # 查询10分钟内的增量数据(Spark) spark.read.format("hudi") .option("as.of.instant", "2023-10-01 12:00:00") .load("/hudi_table") ``` - **Hive**: - 全表扫描为主,即使配置分区过滤 - LLAP引擎优化后点查仍需秒级响应 ##### 3. **事务支持** - **Hudi**: - ACID事务(基于时间线管理) - 并发写冲突自动处理(OCC乐观锁)[^3] - **Hive**: - 仅表级别锁(并发写易阻塞) --- #### 三、典型场景推荐 | **场景** | **Hudi 适用性** | **Hive 适用性** | |------------------------------|----------------------------------------------|-------------------------------| | 实时数据CDC) | ✅ 支持 Kafka/Flink 实时写[^2] | ❌ 仅批量加载 | | 频繁更新(如用户画像) | ✅ MOR表实现高效合并 | ❌ 全分区重写效率低 | | 交互式分析(亚秒级响应) | ⚠️ 需配合 Presto/Doris 加速 | ❌ 高延迟 | | 离线 T+1 报表 | ✅ 可替代 Hive 作为存储层 | ✅ 原生支持 | | 时间序列分析(如日志追溯) | ✅ 时间旅行查询优化 | ⚠️ 需手动管理分区版本 | --- #### 四、混合架构实践:实时数仓 1. **写层**: - Flink CDC 捕获 MySQL 变更 → 实时写 **Hudi MOR 表** 2. **存储层**: - Hudi 管理增量数据(合并小文件、压缩日志) 3. **查询层**: - **Presto**:实时分析查询 Hudi 最新快照 - **Hive**:离线分析历史分区(与 Hudi 表共享存储) ```plaintext 实时链路:FlinkHudi → Presto 离线链路:Hive → 同一份Hudi数据 → 定期合并 ``` --- #### 五、性能基准(1TB 数据集测试) | **指标** | **Hudi (MOR)** | **Hive (ORC)** | |------------------|----------------------|----------------------| | 数据更新延迟 | 2分钟(增量合并) | 30分钟(分区重写) | | 点查响应时间 | 200ms(Presto+索引) | 5s(Hive LLAP) | | 每日增量写成本 | 10GB(压缩日志) | 100GB(全量备份) | --- ### 总结选型建议 - **选择 Hudi 当**: - 需要实时更新/删除能力(如 GDPR 合规场景) - 流批一体架构(避免 Lambda 架构维护成本) - 要求分钟级数据可见性(如实时风控) - **选择 Hive 当**: - 纯离线分析(T+1 报表) - 已有成熟 Hive 生态(UDF/ACL 依赖) - 硬件资源有限(Hudi 需额外计算引擎支持) --- ### 相关问题 1. 如何配置 Hudi MOR 表以实现流批查询统一? 2. Hive 3 的 ACID 2.0 特性是否支持实时更新? 3. 在已有 Hive 数仓中如何逐步迁移到 Hudi? : Hudi 的 MOR 表通过增量日志合并实现高效更新。 : Flink + Hudi 架构可实现端到端分钟级延迟。 [^3]: Hudi 的时间线管理机制保障了多版本并发控制。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

四月天03

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值