在Flink的时间与watermarks详解这篇文章中,阐述了Flink的时间与水位线的相关内容。你可能不禁要发问,该如何访问时间戳和水位线呢?首先通过普通的DataStream API是无法访问的,需要借助Flink提供的一个底层的API——Process Function。Process Function不仅能够访问时间戳与水位线,而且还可以注册在将来的某个特定时间触发的计时器(timers)。除此之外,还可以将数据通过Side Outputs发送到多个输出流中。这样以来,可以实现数据分流的功能,同时也是处理迟到数据的一种方式。下面我们将从源码入手,结合具体的使用案例来说明该如何使用Process Function。
简介
Flink提供了很多Process Function,每种Process Function都有各自的功能,这些Process Function主要包括:
- ProcessFunction
- KeyedProcessFunction
- CoProcessFunction
- ProcessJoinFunction
- ProcessWindowFunction
- ProcessAllWindowFunction
- BaseBroadcastProcessFunction
- KeyedBroadcastProcessFunction
- BroadcastProcessFunction
继承关系图如下:
从上面的继承关系中可以看出,都实现了RichFunction接口,所以支持使用open()
、close()
、getRuntimeContext()
等方法的调用。从名字上可以看出,这些函数都有不同的适用场景,但是基本的功能是类似的,下面会以KeyedProcessFunction为例来讨论这些函数的通用功能。
源码
KeyedProcessFunction
/**
* 处理KeyedStream流的低级API函数
* 对于输入流中的每个元素都会触发调用processElement方法.该方法会产生0个或多个输出.
* 其实现类可以通过Context访问数据的时间戳和计时器(timers).当计时器(timers)触发时,会回调onTimer方法.
* onTimer方法会产生0个或者多个输出,并且会注册一个未来的计时器.
*
* 注意:如果要访问keyed state和计时器(timers),必须在KeyedStream上使用KeyedProcessFunction.
* 另外,KeyedProcessFunction的父类AbstractRichFunction实现了RichFunction接口,所以,可以使用
* open(),close()及getRuntimeContext()方法.
*
* @param <K> key的类型
* @param <I> 输入元素的数据类型
* @param <O> 输出元素的数据类型
*/
@PublicEvolving
public abstract class KeyedProcessFunction<K, I, O> extends AbstractRichFunction {
private static final long serialVersionUID = 1L;
/**
* 处理输入流中的每个元素
* 该方法会输出0个或者多个输出,类似于FlatMap的功能
* 除此之外,该方法还可以更新内部状态或者设置计时器(timer)
* @param value 输入元素
* @param ctx Context,可以访问输入元素的时间戳,并其可以获取一个时间服务器(TimerService),用于注册计时器(timers)并查询时间
* Context只有在processElement被调用期间有效.
* @param out 返回的结果值
* @throws Exception
*/
public abstract void processElement(I value, Context ctx, Collector<O> out) throws Exception;
/**
* 是一个回调函数,当在TimerService中注册的计时器(timers)被触发时,会回调该函数
* @param timestamp 触发计时器(timers)的时间戳
* @param ctx OnTimerContext,允许访问时间戳,TimeDomain枚举类提供了两种时间类型:
* EVENT_TIME与PROCESSING_TIME
* 并其可以获取一个时间服务器(TimerService),用于注册计时器(timers)并查询时间
* OnTimerContext只有在onTimer方法被调用期间有效
* @param out 结果输出
* @throws Exception
*/
public void onTimer(long timestamp, OnTimerContext ctx, Collector<O> out) throws Exception {
}
/**
* 仅仅在processElement()方法或者onTimer方法被调用期间有效
*/
public abstract class Context {
/**
* 当前被处理元素的时间戳,或者是触发计时器(timers)时的时间戳
* 该值可能为null,比如当程序中设置的时间语义为:TimeCharacteristic#ProcessingTime
* @return
*/
public