Flink的Window机制

FlinkWindow的分类

Flink的Window可以分为两大类,五小类

  • 时间窗口
窗口类型说明举例
tumbling window以一定的时常分隔的时间
每一个时间段都是一个window
若间隔=15秒,那么一分钟可以切割成如下窗口:
0-15,15-30,30-45,45-60,前闭后开区间
Sliding Windows以特定的步长(step)增长的,时长(size)特定的窗口若step=5,size=12,
那么一分钟可以切割成如下窗口
0-24,12-36,24-48,36-60,48-72,
前闭后开区间
Session Window设定一个超时时间(timeout),若两个元素间的时间
超过timeout,那这两个元素会被划分到不同的window
若timeout=5, t1.time=1,t2.time=4
t3.time=5,t4.time=11
那么t1、t2、t3属于同一个window,
t4属于另一个window
  • 计数窗口
窗口类型说明
Tumbling Count Window类似滚动时间窗口,只是把时间改为计数
Sliding Count Window类似滑动时间窗口,只是把时间改为计数

Flink的窗口操作

Flink可以对Keyedstream(.window)和Datastream(.windowAll)进行window操作。对于Keyedstream的窗口来说,可以在每一个key上进行聚合等操作。

Flink的时间类型

Watermark和Window中都说到了时间,那么这个时间到底是指的什么时间呢?
实际上,Flink支持处理时间和事件时间两种时间类型。
Flink中默认的时间类型的Process Time,也就是Flink处理数据的时间,如果要使用Event Time,需要进行如下设置

//设置使用事件时间
env.setStreamTimeCharacteristic(TimeCharacteristic.EventTime)

如此,就设置了Flink使用事件时间,但这还不够,还缺一个提取事件事件的操作,这个操作,就是Watermark中的extractTimestamp

Flink的Watermark

Watermark是Flink中为保障乱序数据的一大利器
Watermark声明了一个延时,到达窗口时间后,会等待特定的时间,以便处理迟到的数据
如下代码定义了一个等待3.5秒的Watermark

class MyAssignerWithPerdicWatermarks extends AssignerWithPeriodicWatermarks[ApplyInfo] {
  val maxWaitTime = 3500L
  var lastTimestamp = 0L

  override def getCurrentWatermark: Watermark = {
    new Watermark(lastTimestamp - maxWaitTime)
  }

  //这个方法就是提取事件事件的方法,在这里就是ApplyInfo中的time字段
  override def extractTimestamp(item: ApplyInfo, prev: Long): Long = {
    lastTimestamp = Math.max(item.time, prev)
    item.time
  }
}

实例

信贷系统中,Flink从Source中获取所有的贷款金额,做一个地区实时放款额(最近15秒的放款额,三秒更新一次)展示的实现如下:

    val env = StreamExecutionEnvironment.getExecutionEnvironment
    env.setStreamTimeCharacteristic(TimeCharacteristic.EventTime)
    env.setParallelism(1)

    val stream = env.addSource(new TestObjectSourceFunction)
    val windowStream = stream
      .assignTimestampsAndWatermarks(new MyAssignerWithPeriodicWatermarks)
      .keyBy(_.areaCode)
      .timeWindow(Time.seconds(15), Time.seconds(3))
      .sum("amt")
    stream.print("source")
    windowStream.print("window")
    env.execute("Window Test")
Flink中的窗口(window)是在流处理过程中对数据进行分组和聚合的一种机制。窗口将流数据划分为有限大小的数据块,然后对每个窗口中的数据进行处理和计算。 在Flink中,窗口有两种类型:时间窗口和计数窗口。时间窗口根据事件发生的时间范围对数据进行划分,而计数窗口根据事件发生的次数对数据进行划分。 根据时间的划分方式,时间窗口可以分为滚动窗口和滑动窗口。滚动窗口将数据按照固定长度的时间间隔进行划分,比如每5分钟划分一个窗口。滑动窗口则以固定的时间间隔进行滑动,比如每隔1分钟滑动一次窗口。 对于计数窗口,可以定义固定数量的事件来进行划分,比如每10个事件划分一个窗口。 窗口操作可以包括聚合、计数、求和、最大值、最小值等操作。在窗口操作中,Flink提供了丰富的函数和操作符来实现不同的聚合和计算需求。 窗口操作可以通过窗口函数(window function)实现,窗口函数定义了对窗口中的数据进行聚合和处理的逻辑。 使用窗口操作可以提高流处理的性能和效率,通过将连续的数据划分为有限的窗口,可以减少计算的复杂性。同时,窗口操作也可以使得流处理应用更具可控性和灵活性。 在Flink中,窗口操作广泛应用于各种实时数据分析、实时计算和数据流处理的场景,如实时监测、实时查询、实时报警等。通过合理设置窗口大小和窗口滑动间隔,可以根据实际需求来进行数据处理和聚合,以满足不同的业务需求。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值