Parsera 使用教程
1. 项目介绍
Parsera 是一个轻量级的 Python 库,用于通过语言模型(LLMs)抓取网站数据。它简单易用,支持自定义模型和 Playwright 脚本,适用于各种数据提取需求。
2. 项目快速启动
首先,确保你已经安装了 Python。然后,通过以下步骤安装 Parsera 和 Playwright。
pip install parsera
playwright install
设置环境变量 PARSERA_API_KEY
,这是使用 Parsera 必需的。
import os
os.environ["PARSERA_API_KEY"] = "YOUR_PARSERA_API_KEY_HERE"
接下来,你可以运行一个基本的抓取任务。以下是一个例子:
from parsera import Parsera
url = "https://news.ycombinator.com/"
elements = {
"Title": "News title",
"Points": "Number of points",
"Comments": "Number of comments"
}
scraper = Parsera()
result = scraper.run(url, elements)
result
变量将包含一个包含记录列表的 JSON。
3. 应用案例和最佳实践
运行 Jupyter Notebook
如果你在 Jupyter Notebook 中使用 Parsera,你需要在笔记本的开始处添加以下代码,或者使用异步 arun
方法。
import nest_asyncio
nest_asyncio.apply()
命令行界面(CLI)
使用 CLI 工具之前,确保你的环境变量中设置了 OPENAI_API_KEY
。
运行 Parsera CLI 的示例命令如下:
python -m parsera.main URL --scheme '{"title":"h1"}' --scrolls 3 --output result.json
这里,URL
是你想要抓取的网页地址,--scheme
是一个 JSON 字符串,定义了要提取的元素,--scrolls
指定页面滚动的次数,--output
指定输出文件的名称。
运行 Docker
如果你的本地环境出现问题,可以使用 Docker 运行 Parsera。有关详细信息,请参考项目文档。
4. 典型生态项目
目前没有列出具体的生态项目,但是 Parsera 的开源社区正在不断增长,你可以通过 GitHub 仓库发现和贡献更多相关的项目和插件。
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考