分布式系统重爬策略与实时系统调度优化
分布式网络爬虫重爬策略
在分布式网络爬虫系统中,研究了两种重爬策略(IIR 和 ICR)在 RUC 场景下的性能。选用了包含 16000 个频道和 2800 个爬虫的数据集进行分析。
| Rank | FIXED 重爬任务数 | IIR 重爬任务数 | ICR 重爬任务数 | Rank | FIXED 平均重爬间隔(步) | IIR 平均重爬间隔(步) | ICR 平均重爬间隔(步) |
|---|---|---|---|---|---|---|---|
| 4 | 0.905E6 | 0.738E6 | 0.975E6 | 4 | 60 | 74 | 56 |
| 3 | 3.295E6 | 3.506E6 | 3.428E6 | 3 | 120 | 110 | 112 |
| 2 | 2.979E6 | 3.388E6 |
分布式爬虫重爬策略与实时系统调度优化
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



