Flink--Watermark(水位线)与时间语义
时间语义

- Event Time:事件创建的时间
- Ingestion Time:数据进入Flink的时间
- Processing Time:执行操作算子的本地系统时间,与机器相关
问:哪种时间语义更重要?
答:不同时间语义有不同的应用场合,更关心事件时间。
设置Event Time
- 我们可以直接在代码中,对执行环境调用 setStreamTimeCharacteristic 方法,设置流的时间特性
- 具体的时间,还需要从数据中提取时间戳(timestamp)
乱序数据的影响

- 当 Flink 以 Event Time 模式处理数据流时,它会根据数据里的时间戳来处理基于时间的算子
- 由于网络、分布式等原因,会导致乱序数据的产生
- 乱序数据会让窗口计算不准确
Watermark(水位线)
问:怎样避免乱序数据带来计算不正确?
答:遇到一个时间戳达到了窗口关闭时间,不应该立刻触发窗口计算,而是等
待一段时间,等迟到的数据来了再关闭窗口
- Watermark 是一种衡量 Event Time 进展的机制,可以设定延迟触发
- Watermark 是用于处理乱序事件的,而正确的处理乱序事件,通常用Watermark 机制结合 win

本文探讨了Flink中EventTime时间语义的重要性,介绍了如何设置EventTime并处理乱序数据,特别是通过Watermark机制来确保窗口计算的准确性。讲解了TimestampAssigner的作用,以及AssignerWithPeriodicWatermarks和AssignerWithPunctuatedWatermarks的区别,并提到了watermark的设定策略和其在避免计算错误中的关键作用。
最低0.47元/天 解锁文章
785

被折叠的 条评论
为什么被折叠?



