Parsera 使用教程

Parsera 使用教程

parsera Lightweight library for scraping web-sites with LLMs parsera 项目地址: https://gitcode.com/gh_mirrors/pa/parsera

1. 项目介绍

Parsera 是一个轻量级的 Python 库,用于通过语言模型(LLMs)抓取网站数据。它简单易用,支持自定义模型和 Playwright 脚本,适用于各种数据提取需求。

2. 项目快速启动

首先,确保你已经安装了 Python。然后,通过以下步骤安装 Parsera 和 Playwright。

pip install parsera
playwright install

设置环境变量 PARSERA_API_KEY,这是使用 Parsera 必需的。

import os
os.environ["PARSERA_API_KEY"] = "YOUR_PARSERA_API_KEY_HERE"

接下来,你可以运行一个基本的抓取任务。以下是一个例子:

from parsera import Parsera

url = "https://news.ycombinator.com/"
elements = {
    "Title": "News title",
    "Points": "Number of points",
    "Comments": "Number of comments"
}

scraper = Parsera()
result = scraper.run(url, elements)

result 变量将包含一个包含记录列表的 JSON。

3. 应用案例和最佳实践

运行 Jupyter Notebook

如果你在 Jupyter Notebook 中使用 Parsera,你需要在笔记本的开始处添加以下代码,或者使用异步 arun 方法。

import nest_asyncio
nest_asyncio.apply()

命令行界面(CLI)

使用 CLI 工具之前,确保你的环境变量中设置了 OPENAI_API_KEY

运行 Parsera CLI 的示例命令如下:

python -m parsera.main URL --scheme '{"title":"h1"}' --scrolls 3 --output result.json

这里,URL 是你想要抓取的网页地址,--scheme 是一个 JSON 字符串,定义了要提取的元素,--scrolls 指定页面滚动的次数,--output 指定输出文件的名称。

运行 Docker

如果你的本地环境出现问题,可以使用 Docker 运行 Parsera。有关详细信息,请参考项目文档。

4. 典型生态项目

目前没有列出具体的生态项目,但是 Parsera 的开源社区正在不断增长,你可以通过 GitHub 仓库发现和贡献更多相关的项目和插件。

parsera Lightweight library for scraping web-sites with LLMs parsera 项目地址: https://gitcode.com/gh_mirrors/pa/parsera

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

丁柯新Fawn

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值