字节跳动基于Flink的MQ-Hive实时数据集成

Flink实时数据集成方案

原创

于 2020-07-13 10:00:00 发布 · 1w 阅读

CC 4.0 BY-SA版权

为解决字节跳动内部MQ-Hive链路的痛点，本文提出基于Flink的实时解决方案，实现MQ数据实时写入Hive，支持ExactlyOnce语义，提升实时性与准确性，减少存储与计算开销。

背景

在数据中台建设过程中，一个典型的数据集成场景是将 MQ (Message Queue，例如 Kafka、RocketMQ 等)的数据导入到 Hive 中，以供下游数仓建设以及指标统计。由于 MQ-Hive 是数仓建设第一层，因此对数据的准确性以及实时性要求比较高。

本文主要围绕 MQ-Hive 场景，针对目前字节跳动内已有解决方案的痛点，提出基于 Flink 的实时解决方案，并介绍新方案在字节跳动内部的使用现状。

字节跳动内已有解决方案如下图所示，主要分了两个步骤：

针对目前公司传统解决方案的痛点，我们提出基于 Flink 的实时解决方案，将 MQ 的数据实时写入到 Hive，并支持事件时间以及 Exactly Once 语义。相比老方案，新方案优势如下所示：

整体架构如下图所示，主要包括 DTS(Data Transmission Service) Source、DTS Core、DTS Sink 三大模块，具体功能如下：

DTS Dump架构图