数仓：流批一体的探索与实践

最新推荐文章于 2025-05-28 10:55:49 发布

Freedom3568

最新推荐文章于 2025-05-28 10:55:49 发布

阅读量936

点赞数

CC 4.0 BY-SA版权

分类专栏：数据仓库数据中台架构设计文章标签：数仓流批一体 flink iceberg 中台

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/zhanggqianglovec/article/details/125938075

架构设计同时被 3 个专栏收录

159 篇文章 ¥9.90 ¥99.00

订阅专栏

超级会员免费看

94 篇文章 ¥9.90 ¥99.00

订阅专栏

超级会员免费看

44 篇文章 ¥9.90 ¥99.00

订阅专栏

超级会员免费看

本文介绍了京东在实时计算平台中实现流批一体的探索，包括面对的挑战、实时计算架构和落地方案。文章讨论了如何通过FlinkSQL实现计算统一，以解决数据实时性、兼容离线批处理能力、资源部署和用户观念等问题，并提出了基于Iceberg的存储统一方案。未来规划将继续优化业务拓展和平台能力。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

文章目录

简介

提到流批一体，不得不提传统的大数据平台 —— Lambda 架构。它能够有效地支撑离线和实时的数据开发需求，但它流和批两条数据链路割裂所导致的高开发维护成本以及数据口径不一致是无法忽视的缺陷。

通过一套数据链路来同时满足流和批的数据处理需求是最理想的情况，即流批一体。此外我们认为流批一体还存在一些中间阶段，比如只实现计算的统一或者只实现存储的统一也是有重大意义的。

以只实现计算统一为例，有一些数据应用的实时性要求比较高，比如希望端到端的数据处理延时不超过一秒钟，这对目前开源的、适合作为流批统一的存储来说是一个很大的挑战。以数据湖为例，它的数据可见性与 commit 的间隔相关，进而与 Flink 做 checkpoint 的时间间隔相关，此特性结合数据处理链路的长度，可见做到端到端一秒钟的处理并不容易。因此对于这类需求，只实现计算统一也是可行的。通过计算统一去降低用户的开发及维护成本，解决数据口径不一致的问题。

在这里插入图片描述
在流批一体技术落地的过程中，面临的挑战可以总结为以下 4 个方面：

首先是数据实时性。如何把端到端的数据时延降低到秒级别是一个很大的挑战，因为它同时涉及到计算引擎及存储技术。它本质上属于性能问题，也是一个长期目标。
第二个挑战是如何兼容好在数据处理领域已经广泛应用的离线批处理能力。此处涉及开发和调度两个层面的问题，开发层面主要是复用的问题，比如如

了解本专栏

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

Freedom3568 技术域不存在英雄主义，不进则退

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。