PulsarRPA 教程 11 - 大规模采集

PulsarRPA提供一系列先进技术解决大规模Web数据提取难题。通过独特的URLPool及URLCache设计,能高效处理数百万URL,满足复杂采集需求,并支持不同优先级与延时任务。

大规模采集

烂程序员关心的是代码。好程序员关心的是数据结构和它们之间的关系。
– Linus Torvalds

大规模提取 Web 数据非常困难。网站经常变化并且变得越来越复杂,这意味着收集的网络数据通常不准确或不完整PulsarRPA 开发了一系列尖端技术来解决这些问题。

PulsarRPA 设计了一组数据结构来处理 URL 池的问题。这使得 PulsarRPA 不仅能同时处理数以百万计的 URL,还能够准确定义这些 URL 的行为。

运行连续采集时,URL 会添加到 URLPool 中。URLPool 包含各种精心设计的 URLCache 来满足不同的需求,例如,优先任务、延时任务、截止日期、外部加载等等。

通过组合 URLCache 和 LoadOptions,我们可以满足最复杂的采集需求。

在大规模采集场景下,硬件资源需要被极致利用。为此需要调整默认设置,并行启动更多的隐私实体,每个浏览器需要打开更多标签页,这两个设置决定了系统能够并行采集多少网页,它通常受限于机器的硬件配置,尤其是内存大小,我们建议在大规模采集场景下,内存至少要 32 G。

BrowserSettings.privacy(5).maxTabs(15).headless()

本文演示如何通过不同的 URLCache 来满足不同的采集要求。

首先创建 Pulsar 会话并准备一批测试用的 URL:

val session = PulsarContexts.createSession(
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值