Spark算子：滑动窗口函数reduceByKeyAndWindow的使用

最新推荐文章于 2025-05-13 14:26:07 发布

打杂员工

最新推荐文章于 2025-05-13 14:26:07 发布

阅读量877

点赞数

分类专栏： Spark 文章标签： spark reduceByKeyAndWindow 流计算

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/luyinxing1/article/details/101361315

版权

Spark 专栏收录该内容

1 篇文章

订阅专栏

1、spark官网上只是笼统的介绍了一下，Spark Streaming提供了窗口计算，可让您在数据的滑动窗口上应用转换。下图说明了此滑动窗口。

2、对于官网提供的解释来说，我们也不是很深刻的了解窗口计算的原理，下面以示例分析窗口计算的过程。如：每间隔10秒计算前15秒的内容，每次计算出来的结果与上次计算出来的结果，有5秒是重复的（每个batch 5秒）。步骤如下：

1) 存储上一个window的reduce值
2) 计算出上一个window的begin 时间到重复段的开始时间的reduce 值 =》 oldRDD
3) 重复时间段的值结束时间到当前window的结束时间的值 =》 newRDD
4) 重复时间段的值等于上一个window的值减去oldRDD

我们根据上述步骤一步一步分析一下过程。

①第一次计算，time=10，current window为window1，previous window为空，计算得出RDD1

②第二次计算，time=20，current window为window2，previous window为window1，计算RDD(window2)-RDD1=RDD2

③第三次计算，time=30，current window为window3，previous window为window2，计算RDD(window3)-RDD2=RDD3

④第四次计算，time=40，current window为window4，previous window为window3，计算RDD(window4)-RDD3=RDD4

⑤依次类推......

测试代码：https://github.com/ginkgolu/RunJar

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。