PulsarRPA 教程 1 - 基本用法

原创

已于 2023-05-28 21:49:01 修改 · 1.9k 阅读

CC 4.0 BY-SA版权

文章标签：

于 2022-10-31 11:55:38 首次发布

基本用法

用一句话介绍 PulsarRPA，它仅仅正确实现了两个方法：加载网页，提取数据。为了实现这个目标，PulsarRPA 增删近百万行代码，沉淀数十万行代码，开发了一系列尖端技术。

加载网页：

提取数据：

综合起来：

PulsarRPA 实现网络即数据库范式，像对待内部数据库一样对待外部网络，如果需要的数据不在本地存储中，或者现存版本不满足分析需要，则系统会从互联网上采集该数据的最新版本。

本课程介绍了加载数据和提取数据的基本 API，这些 API 出现在 PulsarSession 中。PulsarSession 提供了丰富的 API，以覆盖“加载-解析-提取”的所有需求。

这样丰富的 API 使得我们的绝大多数编程场景下，都能够使用一行代码解决“加载-解析-提取”问题：

下面是这些 API 的预览，后面我们会详细解释。

我们来看看常见的用法是怎样的。首先创建一个 Pulsar 会话，所有重要的工作都在 Pulsar 会话中处理：

val session = PulsarContexts.createSession()
val url = "https://www.amazon.com/dp/B09V3KXJPB"

最基本的思想和方法是 load()，它先尝试从本地存储加载网页，如果需要的页面不存在，或已过期，或者不满足其他要求，则从 Internet 获取该页面：

val page = session.load(url)

可以用一个简单参数指定网页过期时间，如果需要的页面已在本地存储中且未过期，则返回本地版本：

// Returns the local version
val page2 = session.load(url, "-expires 100d")

在连续采集任务中，我们会以异步并行的方式来处理大批量采集任务，会将大批 URL 提交到 URL 池中，在采集循环中持续处理这些 URL：

// 向 URL 池提交 URL，提交的 URL 将在一个采集循环中处理
session.submit(url, "-ex

qq_36229850 2024.02.20
你好，我下载了exotic-amazon,ai.platon.scent这个包没办法引入，请问应该怎么用呢
- 梧桐叶宇回复qq_36229850 2024.12.17
  解决了吗？我也遇到这个问题了
- Platon.AI回复qq_36229850 2024.10.09
  通常不会出现这种情况，重新尝试或者下载最新版试试？