Flink进阶（二）-- Time 深度解析

最新推荐文章于 2025-10-10 13:02:13 发布

原创最新推荐文章于 2025-10-10 13:02:13 发布 · 313 阅读

0 ·

CC 4.0 BY-SA版权

Flink 专栏收录该内容

7 篇文章

订阅专栏

本文深入探讨Flink中的时间语义，包括ProcessingTime与EventTime的区别及应用场景，解析Watermark如何解决数据乱序问题，以及其在算子间的传播机制。适合Flink开发者及对实时数据处理感兴趣的技术人员阅读。

视频地址：https://www.bilibili.com/video/av53193640

文档地址：http://note.youdao.com/noteshare?id=795ff71c7888efd22fb8026d9762915f&sub=E76047A01C154263A26A1B37D471239B

一、Flink中的时间语义

1.Processing Time:

模拟真实的世界时间，本地机器时间。
处理结果不确定。因为每次处理的时间都是不同的
故障从savepoint 恢复，结果不同
本地时间只能递增，所以，数据在时间上一定有序，得到的是一个有序的数据流
典型：计算吞吐。现实一小时，处理了多少条数据

2.Event Time(Row Time)：

数据中的时间戳
处理结果是确定的，多次处理，结果一致
故障从savepoint 恢复，结果相同
时间是绑定在数据上的，但是通常由于网络，分布式等原因，数据的到达可能存在一定的乱序
典型：过去一小时的某些指标的实时统计

二、watermark

1.针对上面提到的，数据存在的乱序的处理方式

将部分乱序的数据充分的离散化，即将数据划分成一个一个的小段，虽然整个流是乱序的，但是划分之后，很容易保证，靠前的数据段的最大值小于靠后数据的最小值
然后在划分好的两小段之间，插入一个数值，此数值大于等于靠前数据的最大值，小于等于靠后数据的最小值
这个插入的值，就是水印
水印表示后来的数据已经再也没有小于或者等于这个水印所在的时间的了

2. Watermark 生成

在 SourceFunction 中产生水印（从源头产生）

a.源需要调用SourceContext中的collectWithTimestamp(...)方法。

b.为了生成watermark，源需要调用emitWatermark(Watermark)方法

override def run(ctx: SourceContext[MyType]): Unit = { while (/* condition */) { val next: MyType = getNext() ctx.collectWithTimestamp(next, next.eventTimestamp) if (next.hasWatermarkTime) { ctx.emitWatermark(new Watermark(next.getWatermarkTime)) } } }

有时候我们不想在 SourceFunction 里生成 timestamp 或者 watermark，或者说使用的 SourceFunction 本身不支持，我们还可以在使用 DataStream API 的时候指定，调用的 DataStream.assignTimestampsAndWatermarks 这个方法，能够接收不同的 timestamp 和 watermark 的生成器

3. Watermark 类型

1.定期生成器