Flink1.10实战：自定义聚合函数AggregateFunction

最新推荐文章于 2023-12-17 19:38:45 发布

原创

最新推荐文章于 2023-12-17 19:38:45 发布 · 1.9k 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#flink #大数据 #big data

本文详细介绍了Apache Flink中自定义AggregateFunction的使用，通过实例展示了如何创建并应用自定义聚合函数进行数据统计。此外，还演示了如何结合窗口函数进行商品访问量的实时统计，实现了基于滑动时间窗口的数据处理。

Flink 的AggregateFunction是一个基于中间计算结果状态进行增量计算的函数。由于是迭代计算方式，所以，在窗口处理过程中，不用缓存整个窗口的数据，所以效率执行比较高。

@PublicEvolving

public interface AggregateFunction<IN, ACC, OUT> extends Function, Serializable {

...............................

}

自定义聚合函数需要实现AggregateFunction接口类，它有四个接口实现方法：

a.创建一个新的累加器，启动一个新的聚合,负责迭代状态的初始化

ACC createAccumulator();
b.对于数据的每条数据，和迭代数据的聚合的具体实现

ACC add(IN value, ACC accumulator);
c.合并两个累加器，返回一个具有合并状态的累加器

ACC merge(ACC a, ACC b);
d.从累加器获取聚合的结果

OUT getResult(ACC accumulator);

3.自定义聚合函数MyCountAggregate

package com.hadoop.ljs.flink110.aggreagate;
import org.apache.flink.api.common.functions.AggregateFunction;
/**
 * @author: Created By lujisen
 * @company ChinaUnicom Software JiNan
 * @date: 2020-04-15 22:00
 * @version: v1.0
 * @description: com.hadoop.ljs.flink110.aggreagate
 * 输入类型(IN)、累加器类型(ACC)和输出类型(OUT)。
 */
publi