PulsarRPA 教程 7 - 连续采集

原创已于 2023-05-28 21:50:02 修改 · 661 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#网络爬虫 #大数据 #数据挖掘 #kotlin #java

于 2022-10-31 12:16:14 首次发布

PulsarRPA 专栏收录该内容

24 篇文章

订阅专栏

博客介绍了 PulsarRPA 中的连续采集，只需将链接提交到 UrlPool ，采集循环会自动启动，其基础设施能确保数据和调度质量。还指出小规模数据采集项目，如监控竞品信息，可使用连续采集，并给出从代码开始的提示。

连续采集

在 PulsarRPA 中，连续采集非常简单，只需要将链接提交到 UrlPool 就行了，采集循环会自动启动。而 PulsarRPA 的基础设施也会去确保数据质量、调度质量等核心问题。

在小规模的数据采集项目中，譬如每天监控竞争对手的数百个产品价格、库存状态、新增评论等，可以使用连续采集。

连续采集可以从下面的代码开始：

fun main() {
    val context = PulsarContexts.create()

    val parseHandler = { _: WebPage, document: FeaturedDocument ->
        // do something wonderful with the document
        println(document.title + "\t|\t" + document.baseUri)

        // extract more links from the document
        context.submitAll(document.selectHyperlinks("a[href~=/dp/]"))
    }

    val urls = LinkExtractors.fromResource("seeds10.txt").map { ParsableHyperlink("$it -refresh", parseHandler) }
    context.submitAll(urls).await()
}