Flink中时间语义与Wartermark

1 Flink中的时间语义

在 Flink 的流式处理中,会涉及到时间的不同概念,如下图所示:

在这里插入图片描述

Event Time:是事件创建的时间。它通常由事件中的时间戳描述,例如采集的日志数据中,每一条日志都会记录自己的生成时间,Flink 通过时间戳分配器访问事件时间戳

Ingestion Time:是数据进入 Flink 的时间

Processing Time:是每一个执行基于时间操作的算子的本地系统时间,与机器相关

默认的时间属性就是Processing Time

对于业务来说,要统计1min内的故障日志个数,哪个时间是最有意义的?

eventTime,因为我们要根据日志的生成时间进行统计

2 EventTime的引入

在Flink的流式处理中,绝大部分的业务都会使用EventTime,一般只在EventTime 无法使用时,才会被迫使用ProcessingTime或者IngestionTime

val env = StreamExecutionEnvironment.getExecutionEnvironment
// 从调用时刻开始给 env 创建的每一个 stream 追加时间特征
env.setStreamTimeCharacteristic(TimeCharacteristic.EventTime)

3 Watermark

3.1 基本概念

流处理从事件产生,到流经source,再到operator,中间是有一个过程和时间的,虽然大部分情况下,流到operator的数据都是按照事件产生的时间顺序来的,但是也不排除由于网络、分布式等原因,导致乱序的产生,所谓乱序,就是指Flink接收到的事件的先后顺序不是严格按照事件的EventTime顺序排列的

乱序数据的影响?

  1. 当Flink以EventTime模式处理数据流时,它会根据数据里的时间戳来处理基于时间的算子
  2. 由于网络、分布式等原因,会导致乱序数据的产生
  3. 乱序数据会让窗口计算不准确

那么此时出现一个问题,一旦出现乱序,如果只根据EventTime决定window的运行,我们不能明确数据是否全部到位,但又不能无限期的等下去,此时必须要有个机制来保证一个特定的时间后,必须触发window去进行计算了,这个特别的机制,就是Watermark

  1. Watermark是一种衡量EventTime进展的机制,可以设定延迟触发
  2. Watermark是用于处理乱序事件的,而正确的处理乱序事件,通常用Watermark机制结合window来实现
  3. 数据流中的Watermark用于表示timestamp小于Watermark的数据,都已经到达了,因此,window的执行也是由Watermark触发的
  4. watermark用来让程序自己平衡延迟和结果正确性

3.2 Watermark的特点

  1. Watermark是一条特殊的数据记录
  2. Watermark必须单调递增,以确保任务的事件时间始终在向前推进,而不是在后退
  3. Watermark与数据的时间戳相关

3.3 Watermark的传递

在这里插入图片描述

3.4 Watermark的引入

Watermark的引入很简单,对于乱序数据,最常见的引用方式如下

dataStream.assignTimestampsAndWatermarks(new BoundedOutOfOrdernessTimestampExtractor[SensorReading](Time.seconds(1)) {
    // 抽取时间戳
    override def extractTimestamp(element: SensorReading): Long = {
        element.timestamp * 1000
    }
})

EventTime的使用一定要指定数据源中的时间戳,否则程序无法知道事件的事件时间是什么(数据源里的数据没有时间戳的话,就只能使用ProcessingTime了)

对于排好序的数据,不需要延迟触发,可以只指定时间戳就行了

dataStream.assignAscendingTimestamps(_.timestamp * 1000)

Flink暴露了TimestampAssigner接口供我们实现,使我们可以自定义如何从事件数据中抽取时间戳和生成Watermark

dataStream.assignTimestampsAndWatermarks(new MyAssigner())

MyAssigner有两种类型,两个接口都继承自TimestampAssigner

  1. AssignerWithPeriodicWatermarks

    /**
     * AssignerWithPeriodicWatermarks
     *    周期性的生成watermark:
     *        系统会周期性的将watermark插入到流中(水位线也是一种特殊的事件);
     *        默认周期是200毫秒。可以使用ExecutionConfig.setAutoWatermarkInterval()方法进行设置
     *		  升序和前面乱序的处理BoundedOutOfOrderness,都是基于周期性watermark的
     *
     *    产生watermark的逻辑:
     *        每隔xx秒钟,Flink会调用AssignerWithPeriodicWatermarks的getCurrentWatermark(xx)方法;
     *        如果方法返回一个时间戳大于之前水位的时间戳,新的watermark会被插入到流中;
     *        这个检查保证了水位线是单调递增的;
     *        如果方法返回的时间戳小于等于之前水位的时间戳,则不会产生新的watermark
     */
    class MyAssigner() extends AssignerWithPeriodicWatermarks[SensorReading] {
      // 延迟时间2s
      val bound = 2 * 1000L
      // 观察到的最大时间戳
      var maxTs = Long.MinValue
    
      // 周期性生成watermark
      override def getCurrentWatermark: Watermark = {
        // 创建watermark 指定时间
        new Watermark(maxTs - bound)
      }
    
      // 比较,求出当前窗口的最大时间戳
      override def extractTimestamp(element: SensorReading, previousElementTimestamp: Long): Long = {
        maxTs = maxTs.max(element.timestamp * 1000)
        element.timestamp * 1000
      }
    }
    
  2. AssignerWithPunctuatedWatermarks

    /**
     * AssignerWithPunctuatedWatermarks
     *    间断式地生成watermark;
     *        和周期性生成的方式不同,这种方式不是固定时间的,而是可以根据需要对每条数据进行筛选和处理
     *
     * 基于某些事件触发watermark的生成和发送;
     * 基于事件向流里注入一个人watermark,每一个元素都有机会判断是否生成一个watermark,
     * 如果得到的watermark不为空并且比之前的大就注入流中;
     * 实现AssignerWithPunctuatedWatermarks接口
     */
    class MyAssigner() extends AssignerWithPunctuatedWatermarks[SensorReading] {
      // 延迟时间2s
      val bound = 2 * 1000L
    
      override def checkAndGetNextWatermark(lastElement: SensorReading, extractedTimestamp: Long): Watermark = {
        // 只给sensor_1的传感器的数据流插入watermark
        if (lastElement.id == "sensor_1") {
          new Watermark(extractedTimestamp - bound)
        } else {
          null
        }
      }
    
      override def extractTimestamp(element: SensorReading, previousElementTimestamp: Long): Long = {
        element.timestamp * 1000
      }
    }
    

3.5 Watermark的设定

  1. 在Flink中,watermark由应用程序开发人员生成,这通常需要对相应的领域有一定的了解
  2. 如果watermark设置的延迟太久,收到结果的速度可能就会很慢,解决办法是在水位线达到之前输出一个近似结果
  3. 而如果watermark到达的太早,则可能收到错误结果,不过Flink处理迟到数据的机制可以解决这个问题

4 EvnetTime在window中的使用

4.1 滚动窗口(TumblingEventTimeWindows)

结果是按照EvevtTime的时间窗口计算得出的,而无关系统的时间(包括输入的快慢)

dataStream.window(TumblingEventTimeWindows.of(Time.seconds(2)))

4.2 滑动窗口(SlidingEventTimeWindows)

// offset:SlidingEventTimeWindows的参数必须满足 0 <= offset < slide and size > 0
dataStream.window(SlidingEventTimeWindows.of(Time.seconds(2), Time.milliseconds(500)))

4.3 会话窗口(EventTimeSessionWindows)

相邻两次数据的EventTime的时间差超过指定的时间间隔就会触发执行

如果加入Watermark,会在符合窗口触发的情况下进行延迟,到达延迟水位再进行窗口触发

dataStream.window(EventTimeSessionWindows.withGap(Time.milliseconds(500)))
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值