Parsera 使用教程-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_00286/article/details/146900445

Parsera 使用教程

parsera Lightweight library for scraping web-sites with LLMs 项目地址: https://gitcode.com/gh_mirrors/pa/parsera

1. 项目介绍

Parsera 是一个轻量级的 Python 库，用于通过语言模型（LLMs）抓取网站数据。它简单易用，支持自定义模型和 Playwright 脚本，适用于各种数据提取需求。

2. 项目快速启动

首先，确保你已经安装了 Python。然后，通过以下步骤安装 Parsera 和 Playwright。

pip install parsera
playwright install

设置环境变量 PARSERA_API_KEY，这是使用 Parsera 必需的。

import os
os.environ["PARSERA_API_KEY"] = "YOUR_PARSERA_API_KEY_HERE"

接下来，你可以运行一个基本的抓取任务。以下是一个例子：

from parsera import Parsera

url = "https://news.ycombinator.com/"
elements = {
    "Title": "News title",
    "Points": "Number of points",
    "Comments": "Number of comments"
}

scraper = Parsera()
result = scraper.run(url, elements)

result 变量将包含一个包含记录列表的 JSON。

3. 应用案例和最佳实践

运行 Jupyter Notebook

如果你在 Jupyter Notebook 中使用 Parsera，你需要在笔记本的开始处添加以下代码，或者使用异步 arun 方法。

import nest_asyncio
nest_asyncio.apply()

命令行界面（CLI）

使用 CLI 工具之前，确保你的环境变量中设置了 OPENAI_API_KEY。

运行 Parsera CLI 的示例命令如下：

python -m parsera.main URL --scheme '{"title":"h1"}' --scrolls 3 --output result.json

这里，URL 是你想要抓取的网页地址，--scheme 是一个 JSON 字符串，定义了要提取的元素，--scrolls 指定页面滚动的次数，--output 指定输出文件的名称。

运行 Docker

如果你的本地环境出现问题，可以使用 Docker 运行 Parsera。有关详细信息，请参考项目文档。

4. 典型生态项目

目前没有列出具体的生态项目，但是 Parsera 的开源社区正在不断增长，你可以通过 GitHub 仓库发现和贡献更多相关的项目和插件。

parsera Lightweight library for scraping web-sites with LLMs 项目地址: https://gitcode.com/gh_mirrors/pa/parsera

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考