Flink--Watermark(水位线)与时间语义

本文探讨了Flink中EventTime时间语义的重要性,介绍了如何设置EventTime并处理乱序数据,特别是通过Watermark机制来确保窗口计算的准确性。讲解了TimestampAssigner的作用,以及AssignerWithPeriodicWatermarks和AssignerWithPunctuatedWatermarks的区别,并提到了watermark的设定策略和其在避免计算错误中的关键作用。

时间语义

时间语义

  • Event Time:事件创建的时间
  • Ingestion Time:数据进入Flink的时间
  • Processing Time:执行操作算子的本地系统时间,与机器相关

问:哪种时间语义更重要?
答:不同时间语义有不同的应用场合,更关心事件时间。

设置Event Time

  • 我们可以直接在代码中,对执行环境调用 setStreamTimeCharacteristic 方法,设置流的时间特性
  • 具体的时间,还需要从数据中提取时间戳(timestamp)
    乱序数据的影响
    乱序数据
  • 当 Flink 以 Event Time 模式处理数据流时,它会根据数据里的时间戳来处理基于时间的算子
  • 由于网络、分布式等原因,会导致乱序数据的产生
  • 乱序数据会让窗口计算不准确

Watermark(水位线)

问:怎样避免乱序数据带来计算不正确?
答:遇到一个时间戳达到了窗口关闭时间,不应该立刻触发窗口计算,而是等
待一段时间,等迟到的数据来了再关闭窗口

  • Watermark 是一种衡量 Event Time 进展的机制,可以设定延迟触发
  • Watermark 是用于处理乱序事件的,而正确的处理乱序事件,通常用Watermark 机制结合 win
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值