FLink聚合性能优化--MiniBatch分析

最新推荐文章于 2025-10-22 16:57:33 发布

原创

最新推荐文章于 2025-10-22 16:57:33 发布 · 6.2k 阅读

15 ·

CC 4.0 BY-SA版权

本文详细介绍了Flink中MiniBatch的演进思路，包括MiniBatch版本的改进、适用场景和与普通聚合的对比。MiniBatch主要应用于不带window的group agg，通过Local-Global、Partial-Final和Incremental三种优化手段提升性能。文章还阐述了如何开启和配置MiniBatch，以实现更高效的聚合计算。

文章目录

一、MiniBatch的演进思路
二、MiniBatch作用的SQL语句
三、MiniBatch三类优化手段
四、如何开启MiniBatch

一、MiniBatch的演进思路

1、MiniBatch版本

Flink 1.9.0 SQL(Blink Planner) 性能优化中一项重要的改进就是升级了微批模型，即 MiniBatch(也称作MicroBatch或MiniBatch2.0)，在支持高吞吐场景发挥了重要作用。

MiniBatch与早期的MiniBatch1.0在微批的触发机制略有不同。原理同样是缓存一定的数据后再触发处理，以减少对State的访问，从而提升吞吐和减少数据的输出量

MiniBatch与早期的MiniBatch1.0对比如下：
1、MiniBatch1.0主要依靠在每个Task上注册的Timer线程来触发微批，需要消耗一定的线程调度性能。
2、MiniBatch是MiniBatch1.0的升级版，主要要基于事件消息来触发微批，事件消息会按您指定的时间间隔在源头插入。MiniBatch在元素序列化效率、反压表现、吞吐和延迟性能上都要优于胜于MiniBatch1.0

2、适用场景

微批处理是增加延迟来换取高吞吐的策略，如果您有超低延迟的要求，不建议开启微批处理。通常对于聚合的场景，微批处理可以显著的提升系统性能，建议开启。

3、普通聚合与MiniBatch聚合对比

A、Simple Aggregation普通聚合

在未开启任何聚合优化前，执行SQL()：

SELECT key, SUM(value) FROM T GROUP BY key

当未开启 MicroBatch 时，Aggregate 的处理模式是每来一条数据，查询一次状态，进行聚合计算，然后写入一次状态。当有 4条数据时，需要操作 2*4 次状态
在这里插入图片描述

B、MiniBatch Aggregation微批聚合

当开启 MicroBatch 时，对于缓存下来的 N 条数据一起触发，同 key 的数据只会读写状态一次。例如下缓存的 4 条 A 的记录，只会对状态读写各一次。所以当数据的 key 的重复率越大，攒批的大小越大，那么对状态的访问会越少，得到的吞吐量越高。

在这里插入图片描述

二、MiniBatch作用的SQL语句

MiniBatch主要作用于聚合(Group By)语句中，且不带window的场景（即分类2）。
我们先看下聚合分类：

分类1、 window agg

示例：select count(a) from t group by tumble(ts, interval ’10’ second), b
解析：以10秒翻转窗口和字段b聚合，MiniBatch不能作用的场景

分类2、group agg

示例：select count(a) from t group by b
解析：以字段a聚合，MiniBatch可以作用的场景

分类3、over agg

示例：select count(a) over (partition by b order by c) from t
解析：over window，MiniBatch不能作用的场景

三、MiniBatch三类优化手段

上一章节我们说明了MiniBatch只能作用于分类2（group aggregate且不带window场景），这个聚合场景下，微批处理具有三类优化手段：

Local-Global聚合(本地-全局聚合)

Partial-Final聚合(解决COUNT DISTINCT热点问题)

Incremental增量聚合