第四篇|Flink DataStream API 中的多面手——Process Function详解

Flink的Process Function允许访问时间戳、水位线,并注册计时器。KeyedProcessFunction作为示例,包含processElement和onTimer方法,用于处理数据和回调。TimerService提供注册和删除计时器的接口,支持event time和processing time。文章通过源码解析和案例展示了Process Function的应用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Flink的时间与watermarks详解这篇文章中,阐述了Flink的时间与水位线的相关内容。你可能不禁要发问,该如何访问时间戳和水位线呢?首先通过普通的DataStream API是无法访问的,需要借助Flink提供的一个底层的API——Process Function。Process Function不仅能够访问时间戳与水位线,而且还可以注册在将来的某个特定时间触发的计时器(timers)。除此之外,还可以将数据通过Side Outputs发送到多个输出流中。这样以来,可以实现数据分流的功能,同时也是处理迟到数据的一种方式。下面我们将从源码入手,结合具体的使用案例来说明该如何使用Process Function。

简介

Flink提供了很多Process Function,每种Process Function都有各自的功能,这些Process Function主要包括:

  • ProcessFunction
  • KeyedProcessFunction
  • CoProcessFunction
  • ProcessJoinFunction
  • ProcessWindowFunction
  • ProcessAllWindowFunction
  • BaseBroadcastProcessFunction
    • KeyedBroadcastProcessFunction
  • BroadcastProcessFunction

继承关系图如下:

从上面的继承关系中可以看出,都实现了RichFunction接口,所以支持使用open()close()getRuntimeContext()等方法的调用。从名字上可以看出,这些函数都有不同的适用场景,但是基本的功能是类似的,下面会以KeyedProcessFunction为例来讨论这些函数的通用功能。

源码

KeyedProcessFunction

/**
 * 处理KeyedStream流的低级API函数
 * 对于输入流中的每个元素都会触发调用processElement方法.该方法会产生0个或多个输出.
 * 其实现类可以通过Context访问数据的时间戳和计时器(timers).当计时器(timers)触发时,会回调onTimer方法.
 * onTimer方法会产生0个或者多个输出,并且会注册一个未来的计时器.
 *
 * 注意:如果要访问keyed state和计时器(timers),必须在KeyedStream上使用KeyedProcessFunction.
 * 另外,KeyedProcessFunction的父类AbstractRichFunction实现了RichFunction接口,所以,可以使用
 * open(),close()及getRuntimeContext()方法.
 *
 * @param <K> key的类型
 * @param <I> 输入元素的数据类型
 * @param <O> 输出元素的数据类型
 */
@PublicEvol
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值