1- allowedLateness的应用场景
简介: 延迟数据
是指:在当前窗口【假设窗口范围为10-15】已经计算之后,又来了一个属于该窗口
的数据【假设事件时间为13】,这时候仍会触发window操作
,这种数据就称为延迟数据。
- 针对基于事件时间EventTime窗口分析,如何解决
乱序数据
和延迟数据
的呢???
某个窗口已经被触发计算,但是不会立即销毁,等待Time(允许数据迟到的时间),如果此时间内有延迟数据到达,进行计算。
`设置允许延迟数据处理方法:`
- 设置允许延迟的时间是通过`allowedLateness(lateness: Time)`设置
- 保存延迟数据则是通过`sideOutputLateData(outputTag: OutputTag[T])`保存
- 获取延迟数据是通过`DataStream.getSideOutput(tag: OutputTag[X])`获取
2- Flink Time之Allowed Lateness 案例 演示
- 修改基于前面事件时间窗口统计分析代码,加上允许延迟数据:
5秒
,并且将延迟数据放到侧边流中,进行额外单独处理分析。
import org.apache.commons.lang.time.FastDateFormat;
import org.apache.flink.api.java.tuple.Tuple;
import org.apache.flink.streaming.api.TimeCharacteristic;
import org.apache.flink.streaming.api.datastream.DataStream;
import org.apache.flink.streaming.api.datastream.DataStreamSource;
import org.apache.flink.streaming.api.datastream.SingleOutputStreamOperator;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import org.apache.flink.streaming.api.functions.AssignerWithPeriodicWatermarks;
import org.apache.flink.streaming.api.functions.windowing.WindowFunction;
import org.apache.flink.streaming.api.watermark.Watermark;
import org.apache.flink.streaming.api.windowing.time.Time;