【Python实用技能】爬虫升级之路：从专用爬虫到用AI Agent实现通用网络爬虫（适合小白）

同学小张

已于 2024-03-20 13:41:23 修改

阅读量4.1k

点赞数 45

CC 4.0 BY-SA版权

分类专栏：大模型 python 文章标签： python 爬虫人工智能笔记经验分享 MetaGPT prompt

于 2024-03-18 07:00:00 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/Attitude93/article/details/136275506

大模型同时被 2 个专栏收录

152 篇文章 ¥9.90 ¥99.00

订阅专栏

超级会员免费看

40 篇文章

订阅专栏

大家好，我是同学小张，日常分享AI知识和实战案例

欢迎 点赞 + 关注 👏，持续学习，持续干货输出。

+v: jasper_8017 一起交流💬，一起进步💪。

微信公众号也可搜【同学小张】 🙏

本站文章一览：

在这里插入图片描述

目前为止，我们已经写了几个爬虫程序，能将网页中的内容提取出来，或者保存成PDF。本文来总结一下这些方法，循序渐进地带大家看下爬虫的实现方法：从单个网页爬虫，到利用大模型提取指定信息，到利用AI Agent实现自动编写爬虫代码实现通用爬虫。

在这里插入图片描述

说明：本人爬虫小白，所以这篇文章总结的是简单的爬虫程序，可以直接使用的程序。没有复杂的操作，也没有深入的理解。适合爬虫小白或只是将爬虫作为一个数据来源的非专业人员。想要深入理解爬虫原理的同学，可以退出了。

文章目录

0. 单网页的专用爬虫实现方法
1. 利用大模型直接提取指定信息的探索
2. 利用AI Agent实现通用爬虫
3. 总结

0. 单网页的专用爬虫实现方法

这种爬虫是针对特定网页的数据爬取，可以是一个网页，或者是一系列结构相似的网页。

这种爬虫的实现方法，最主要的是，需要打开网页，F12调试，然后找自己需要的文本内容在HTML中的Tag或Class。

0.1 基本的爬虫程序实现方法

如果你会一点爬虫基础，那看到网页结构，应该就知道怎么利用 BeautifulSoup 写一个简单的爬虫程序了。但是如果你一点爬虫基础也没有，不知该如何下手呢？可以利用ChatGPT、文心一言、智谱清言等工具帮你。保姆级操作教程可看下面的文章：

【提效】让GPT帮你写爬虫程序，不懂爬虫也能行

文章中包含了如何找到你需要的文本内容在HTML结构中的Tag、class，如何给大模型Prompt和交互等：

在这里插入图片描述

【AI大模型应用开发】【LangCh

了解本专栏

超级会员免费看

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

同学小张 如果觉得有帮助，欢迎给我鼓励！

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。