14、分布式系统重爬策略与实时系统调度优化

分布式爬虫重爬策略与实时系统调度优化

分布式系统重爬策略与实时系统调度优化

分布式网络爬虫重爬策略

在分布式网络爬虫系统中,研究了两种重爬策略(IIR 和 ICR)在 RUC 场景下的性能。选用了包含 16000 个频道和 2800 个爬虫的数据集进行分析。

Rank FIXED 重爬任务数 IIR 重爬任务数 ICR 重爬任务数 Rank FIXED 平均重爬间隔(步) IIR 平均重爬间隔(步) ICR 平均重爬间隔(步)
4 0.905E6 0.738E6 0.975E6 4 60 74 56
3 3.295E6 3.506E6 3.428E6 3 120 110 112
2 2.979E6 3.388E6
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值