简述SparkStreming的窗口机制的原理

这个其实我在负责的反爬虫数据处理项目中,使用到过SparkStreaming,并且再使用到了SparkStreamning的窗口机制进行实时的数据监控指标,例如实时统计最近一周内爬虫数量,爬虫次数这样的指标。

SaprkStreaming的窗口原理的话,涉及到3个概念:
第一个就是batch间隔,batch在SparkStreaming的定义中说batch是spark RDD分布数据集的最小单位。
第二个就是滑动间隔,滑动间隔指的就是窗口移动的间隔,这个看你身实际业务的实时性需要,需要平衡一下系统的性能,滑动间隔必须是batch的整数倍,如果不是的话,就会出现数据计算丢失。
第三个就是窗口间隔:这个就取决于你要统计的数据范围,保证窗口间隔是batch的整数倍,才能保证数据的完整性,比如你的batch是1秒钟,然后你的窗口长度是1.5秒,那不就是有半秒数据会被重复嘛,没办大保证数据计算的准确性

那刚才讲到的指标实时统计最近一周的爬虫数量,batch我们设置1秒,滑动间隔就是30秒,窗口长度就是7天。

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值