1、Flink 中的时间语义
在Flink 的流式处理中,会涉及到时间的不同概念,如下图所示:
Event Time:是事件创建的时间。它通常由事件中的时间戳描述,例如采集的日志数据中,每一条日志都会记录自己的生成时间,Flink 通过时间戳分配器访问事件时间戳。
Ingestion Time:是数据进入Flink 的时间。
Processing Time:是每一个执行基于时间操作的算子的本地系统时间,与机器相关,默认的时间属性就是Processing Time。
一个例子——电影《星球大战》:
在这个例子中,
事件时间(事情真正发送的时间):星球大战1->星球大战2->星球大战3->星球大战4…
处理时间(电影拍摄时间):星球大战4->星球大战5->星球大战6->星球大战1…
例如,一条日志进入Flink 的时间为2017-11-12 10:00:00.123,到达Window 的系统时间为2017-11-12 10:00:01.234,日志的内容如下:
2017-11-02 18:37:15.624 INFO Fail over to rm2
对于业务来说,要统计1min 内的故障日志个数,哪个时间是最有意义的?——eventTime,因为我们要根据日志的生成时间进行统计。eventTime可以从日志中的时间戳提取。
2、EventTime 的引入
在Flink 的流式处理中,绝大部分的业务都会使用eventTime,一般只在eventTime 无法使用时,才会被迫使用ProcessingTime 或者IngestionTime。如果要使用EventTime,那么需要引入EventTime 的时间属性,引入方式如下所示:
val env = StreamExecutionEnvironment.getExecutionEnvironment
// 从调用时刻开始给env 创建的每一个stream 追加时间特征
env.setStreamTimeCharacteristic(TimeCharacteristic.EventTime)