字节跳动基于Flink的MQ-Hive实时数据集成

本文链接：https://blog.youkuaiyun.com/2401_84132381/article/details/137994673

本文介绍了字节跳动基于Flink的MQ-Hive实时数据集成方案，包括DTS架构、Exactly Once语义实现、容灾组件、优化策略等。通过Checkpoint机制与2PC协议确保数据一致性，同时针对并发度、文件切分和乱序处理进行了优化，以提高系统容错性和稳定性。还探讨了Hive存储格式、Task Failover、异地容灾和事件时间归档等关键问题。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

整体架构如下图所示，主要包括 DTS(Data Transmission Service) Source、DTS Core、DTS Sink 三大模块，具体功能如下：

DTS Source 接入不同 MQ 数据源，支持 Kafka、RocketMQ 等
DTS Sink 将数据输出到目标数据源，支持 HDFS、Hive 等
DTS Core 贯穿整个数据同步流程，通过 Source 读取源端数据，经过 DTS Framework 处理，最后通过 Sink 将数据输出到目标端。
DTS Framework 集成类型系统、文件切分、Exactly Once、任务信息采集、事件时间、脏数据收集等核心功能
支持 Yarn 部署模式，资源调度、管理比较弹性

DTS Dump架构图

Exactly Once

Flink 框架通过 Checkpoint 机制，能够提供 Exactly Once 或者 At Least Once 语义。为了实现 MQ-Hive 全链路支持 Exactly-once 语义，还需要 MQ Source、Hive Sink 端支持 Exactly Once 语义。本文通过 Checkpoint + 2PC 协议实现，具体过程如下：

数据写入时，Source 端从上游 MQ 拉取数据并发送到 Sink 端；Sink 端将数据写入到临时目录中
Checkpoint Snapshot 阶段，Source 端将 MQ Offset 保存到 State 中；Sink 端关闭写入的文件句柄，并保存当前 Checkpoint ID 到 State 中；
Checkpoint Complete 阶段，Source 端 Commit MQ Offset；Sink 端将临时目录中的数据移动到正式目录下
Checkpoint Recover 阶段，加载最新一次成功的 Checkpoint 目录并恢复 State 信息，其中 Source 端将 State 中保存的 MQ Offset 作为起始位置；Sink 端恢复最新一次成功的 Checkpoint ID，并将临时目录的数据移动到正式目录下