sparkstreaming的窗口函数:
窗口函数的作用主要是计算一段时间之内的数据的变化,那么就会有人产生疑问,为什么窗口与窗口之间需要重叠呢?
其实不重叠也是可以的,但是如果不重叠的话,将来做出来的报表一个时间段与另一个时间段的数据就会产生剧烈的变化。
窗口函数可以让我们一下子操作多个批次。
上面这些就是窗口函数,那么我们怎么用呢?
我们这里举个例子:
如果我们想使用reduceByKeyAndWindow的话,首先我们需要一个DStream,并且这个里面装的是键值对。
这里的Seconds(30)是窗口的间隔,Seconds(10)是滑动的间隔。
而且这两个间隔必须是生成批次的时间间隔。
假如生成批次的时间间隔