Flink 的AggregateFunction是一个基于中间计算结果状态进行增量计算的函数。由于是迭代计算方式,所以,在窗口处理过程中,不用缓存整个窗口的数据,所以效率执行比较高。
@PublicEvolving
public interface AggregateFunction<IN, ACC, OUT> extends Function, Serializable {
...............................
}
自定义聚合函数需要实现AggregateFunction接口类,它有四个接口实现方法:
a.创建一个新的累加器,启动一个新的聚合,负责迭代状态的初始化
ACC createAccumulator();
b.对于数据的每条数据,和迭代数据的聚合的具体实现
ACC add(IN value, ACC accumulator);
c.合并两个累加器,返回一个具有合并状态的累加器
ACC merge(ACC a, ACC b);
d.从累加器获取聚合的结果
OUT getResult(ACC accumulator);
3.自定义聚合函数MyCountAggregate
-
package com.hadoop.ljs.flink110.aggreagate; import org.apache.flink.api.common.functions.AggregateFunction; /** * @author: Created By lujisen * @company ChinaUnicom Software JiNan * @date: 2020-04-15 22:00 * @version: v1.0 * @description: com.hadoop.ljs.flink110.aggreagate * 输入类型(IN)、累加器类型(ACC)和输出类型(OUT)。 */ publi

本文详细介绍了Apache Flink中自定义AggregateFunction的使用,通过实例展示了如何创建并应用自定义聚合函数进行数据统计。此外,还演示了如何结合窗口函数进行商品访问量的实时统计,实现了基于滑动时间窗口的数据处理。
最低0.47元/天 解锁文章
254

被折叠的 条评论
为什么被折叠?



