文章目录
前言
根据分配数据的规则,窗口的具体实现可以分为 4 类:滚动窗口(Tumbling Window)、滑动窗口(Sliding Window)、会话窗口(Session Window),以及全局窗口(Global Window)
1. 滚动窗口(Tumbling Windows)
滚动窗口有固定的大小,是一种对数据进行均匀切片的划分方式。窗口之间没有重叠,也不会有间隔,是“首尾相接”的状态。滚动窗口可以基于时间定义,也可以基于数据个数定义;需要的参数只有一个,就是窗口的大小(window size)。

2. 滑动窗口(Sliding Windows)
与滚动窗口类似,滑动窗口的大小也是固定的。区别在于,窗口之间并不是首尾相接的,而是可以“错开”一定的位置。如果看作一个窗口的运动,那么就像是向前小步“滑动”一样。定义滑动窗口的参数有两个:除去窗口大小(window size)之外,还有一个滑动步长(window slide),代表窗口计算的频率。

滑动窗口其实是固定大小窗口的更广义的一种形式;换句话说,滚动窗口也可以看作是一种特殊的滑动窗口——窗口大小等于滑动步长(size = slide)

本文介绍了数据流处理中的四种窗口类型:滚动窗口、滑动窗口、会话窗口和全局窗口。滚动窗口是固定大小且无重叠的数据切片;滑动窗口在保持固定大小的同时允许窗口间有重叠,通过滑动步长调整计算频率;会话窗口基于数据到达的时间间隔,当数据间隔超过设定阈值时窗口关闭;全局窗口则包含所有数据,适用于无界流处理,通常需要自定义触发器来执行计算。
最低0.47元/天 解锁文章
1801

被折叠的 条评论
为什么被折叠?



