如何用ScrapeGraphAI 爬取页面的标题或其它信息

最新推荐文章于 2026-01-05 21:47:57 发布

原创最新推荐文章于 2026-01-05 21:47:57 发布 · 367 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#python #爬虫 #ai

首先装环境

先装scrapegraphai

在Terminal窗口输入如下命令

pip install -i https://pypi.tuna.tsinghua.edu.cn/simple/ --trusted-host pypi.tuna.tsinghua.edu.cn scrapegraphai

上面的装完以后到装下面的，同样也是在Terminal 窗口输入如下命令

playwright install

装好后，新建一个py文件，敲图上的代码

说一下几个需要改的参数

api_key：这个要去买才行，我买的是deepseek的，买了直接复制就行

第一个base_url：用deepseek的

第二个base_url：在Ollama 上复制的一个模型的url

prompt：你想要哪个内容就告诉它，比如说我要的是下面这个页面的hero

source ：就是你要爬取的目标页面的链接

都改好参数了以后直接运行就好，运行成功后会输出一串content ，核对一下就是我需要的hero名字

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

PanLkk

关注关注

3
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

下一代智能爬虫框架：ScrapeGraphAI 详解

数据知道的博客

04-08

1万+

ScrapeGraphAI 是一个基于图计算(Graph Computing)和大语言模型（LLM）的智能爬虫框架，通过将网页解析任务建模为有向图（Directed Graph），实现自动化、可解释的网页数据采集。图节点：代表网页元素（如按钮、表格、文本块）图边：定义操作流程（如点击→等待→提取）LLM 辅助：自动生成 XPath/CSS 选择器，处理动态结构instruction="提取所有<h2>标签文本",

大模型爬虫—ScrapeGraphAI

最新发布

gitblog_00640的博客

01-05

1811

**ScrapeGraphAI** 是一个基于人工智能的Python web爬虫库，利用大型语言模型（如GPT-3或GPT-4）和直接图形逻辑来创建网站和本地文档的自动抓取管道。它简化了数据提取的过程，只需要提供要提取的信息，就能自动完成任务。该库支持多种格式的本地文件，包括XML、HTML、JSON和Markdown等。 ## 2. 项目快速启动 ### 安装在命令行中使用以下命令安装S

ScrapeGraphAI：基于LLM的智能爬虫，多页面爬取、语音生成，开启数据提取新纪元！

2401_84494441的博客

06-02

1756

可以从新闻网站抓取文章，并使用LLM进行文本摘要，快速生成新闻综述或行业报告。这种功能可以帮助用户及时了解最新资讯，节省阅读时间。五、快速使用。

ScrapeGraphAI颠覆传统网络爬取技术！用AI重塑数据采集方式！支持ollama本地部署！LangChain+LangGraph打造最强全自动文章采集和内容创作AI智能体！让内容创作更简单！

m0_71165399的博客

12-31

2322

ScrapeGraphAI 是一个开源的 Python 库，通过结合大语言模型（LLMs）和基于图的逻辑，彻底革新了网络爬取技术。用户只需用简单的自然语言描述需要提取的信息，即可从网站或多种文档格式中提取结构化数据。

大模型应用— 爬虫 ScrapeGraphAI大模型爬虫—ScrapeGraphAI

m0_74823388的博客

02-07

1746

是一个_网络爬虫Python 库，使用大型语言模型和直接图逻辑为网站和本地文档（XML，HTML，JSON 等）创建爬取管道。只需告诉库您想提取哪些信息，它将为您完成！外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传: 单页爬虫，只需用户提示和输入源；: 多页爬虫，从搜索引擎的前 n 个搜索结果中提取信息；: 单页爬虫，从网站提取信息并生成音频文件。: 多页爬虫，给定一个提示可以通过 API 使用不同的 LLM，如OpenAIGroqAzure和Gemini，或者使用。

智能爬虫ScrapeGraphAI尝鲜

xuweilin的博客

08-08

1519

ScrapeGraphAI是一个创新的Python库，它融合了大型语言模型（LLM）和直接图逻辑，为用户提供了一种高效的方法，用于构建针对网站、文档和XML文件的爬虫流水线。

ScrapeGraph.AI使用记录

weixin_45470898的博客

08-07

3233

记录一个工具的使用，AI+爬虫：SmartScraperGraphAI。简单的调用，极致的享受

当AI遇上爬虫：ScrapeGraphAI结合LLM实现前所未有的网页抓取效率，一言即搜！

lythinking的博客

05-09

8605

原创 Aitrainee | 公众号：AI进修生：AI算法工程师 / Prompt工程师 / ROS机器人开发者 | 分享AI动态与算法应用资讯，提升技术效率。🌟ScrapeGraphAI 是一个网络抓取Python 库，它使用 LLM 和直接图形逻辑为网站、文档和 XML文件创建抓取管道。只需说出您想要提取哪些信息，ScrapeGraphAI就会为你完成！在当今数据驱动的世界中，网络抓取已成为从广阔的互联网中收集信息的重要工具。

探索数据新境界：ScrapeGraphAI，一键触发智能网络抓取革命

AIGC搞起

06-07

2781

🌟【技术控必备】🛠️小红书技术宅的福音来啦！🎉👩‍💻👨‍💻各位编程大佬们，是不是还在为手动抓取网页数据头疼？今天给大家安利一个超给力的Python库——ScrapeGraphAI！🌈这不仅仅是一个库，它是打开数据大门的钥匙！用上它，就像有了一台自动挖掘机，只要你指明方向，它就能帮你深挖出宝藏！🔍 ScrapeGraphAI用上了超先进的大型语言模型和直接图逻辑，不管是网站还是本地的XML、HTML、JSON文档，统统都能搞定！💬告诉它你的需求，剩下的就交给ScrapeGraphAI吧！

ScrapeGraphAI：一次抓取，无限可能

gitblog_00074的博客

01-05

2608

ScrapeGraphAI 是一个创新的Python库，它融合了LLM（大型语言模型）和直接图逻辑，为您提供了一种高效的方法，用于构建针对网站、文档和XML文件的爬虫流水线。只需告诉它您想要提取的信息，剩下的就交给ScrapeGraphAI吧！ ## 简介这个强大的工具以简洁的API设计为特色，允许用户通过简单的指令来实现复杂的网页数据抽取任务。不仅如此，它还支持多种交互方式，包括Ollam

基于AI的Python爬虫-Scrapegraph-ai

hjx_dou的专栏

05-06

1408

刚从github榜单看到的，将ai和爬虫结合起来的项目，我没安装，凡是关于ai的要么自己下载模型，要么用在线的api，这两样我现在都懒得装。看介绍的话可以根据自然语言去设置要抓取的内容，而且看例子支持很多国外的大模型。时间问题我没试用，没法给出太详细的这东西好不好用，有兴趣的朋友可以试一下。

能理解你的意图的自动化采集工具——AI和爬虫相结合

忆_恒心的博客

06-23

4166

当AI的阅读理解能力遇到了自动化采集工具的时候，将会产生怎么样的魔法呢？能够理解你的意图并自动执行复杂的网络数据抓取任务，ScrapeGraphAI 就是这样一个工具，它利用最新的人工智能技术，让数据提取变得前所未有地简单。

在电脑或Android手机上实现自动化爬虫规避风控反爬，掌握 ScrapeGraphAI：让AI帮你实现数据爬虫自动化，自动执行 Chromium、Firefox、WebKit 等主流浏览器自动化操作

代码讲故事

09-04

4322

在电脑或Android手机上实现自动化爬虫规避风控反爬，掌握 ScrapeGraphAI：让AI帮你实现数据爬虫自动化，自动执行 Chromium、Firefox、WebKit 等主流浏览器自动化操作。ScrapeGraphAI 是一个功能强大的 Python 库，旨在简化从网站、文档和 XML 文件中提取信息的过程。利用大型语言模型（LLM）和直接图逻辑，ScrapeGraphAI 可以创建高效的抓取管道。无论您是需要从复杂的网站中提取数据，还是需要处理文档和 XML 文件，都能为您提供便捷的解决方案。

ScrapeGraphAI 怎么用

07-17

例如，如果你想从某个网站抓取文章标题和正文，你可以编写如下所示的配置文件或直接在代码中定义： ```yaml graph: nodes: - name: start type: StartNode - name: fetch_page type: FetchPageNode parameters...