广告系统中后链路数据为什么要使用流批一体技术？流批一体技术是什么？

盒子6910

于 2025-06-10 20:43:49 发布

阅读量476

点赞数 4

CC 4.0 BY-SA版权

分类专栏：运维视角下的广告业务文章标签： python java c++ javascript php ai

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/weixin_42738495/article/details/148567841

运维视角下的广告业务专栏收录该内容

14 篇文章 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

在大规模广告系统的后链路（离线和实时特征计算、模型训练与上线、效果监控等）中，往往既有对海量历史数据的批量计算需求（离线特征、离线模型训练、报表汇总），又有对在线请求的低延迟实时计算需求（实时特征、在线打分、实时监控／告警）。传统将二者割裂、用 Lambda 架构（Batch + Speed 层）分别实现，带来了：

• 代码与业务逻辑重复
• 数据语义／计算结果不一致
• 运维成本、调度复杂度翻倍
• 开发调试效率低

流批一体技术（Streaming + Batch Unified）正是在这个场景下应运而生，用以打通“离线 ↔ 实时”两条腿，统一底层引擎、统一 API、统一数据语义、统一运维调度，从而大幅降低系统复杂度并提升实时性与一致性。

以下从“概念”、“核心能力”、“关键技术点”以及“在广告后链路的价值”四个角度做详细介绍。

一、流批一体技术概念

统一计算引擎
– 同一套计算框架即可处理有界（Batch）与无界（Stream）数据
– 统一抽象：数据流（DataStream）、表／SQL（Table & SQL）等
统一编程模型
– 同一份代码／同一套 API（如 Flink 的 DataStream & Table API、Spark Structured Streaming & Spark SQL、Beam）
– 业务逻辑“一次编写、实时／离线皆可跑”
统一时间语义
– 事件时间（Event Time）驱动，Watermark + Window 机制同时支持离线全局聚合和实时滑动／滚动窗口
统一容错与状态管理
–

了解本专栏

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。