爬虫的基础知识

最新推荐文章于 2025-05-27 18:19:13 发布

搬砖修狗

最新推荐文章于 2025-05-27 18:19:13 发布

阅读量789

点赞数 6

文章标签：爬虫大数据 python html

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/m0_70574207/article/details/138922878

版权

引言：

我们身处大数据时代，我们都知道在大数据时代，数据即为重点且可以说是值钱。

数据来源：

国家统计局网站获取
到第三方公司购买数据
通过爬虫爬取数据
人工收集数据（如问卷调查）

一、什么是爬虫

定义：爬虫(Web Crawler) 是一种自动获取网页信息的程序或脚本，也称为网络蜘蛛或网络机器人。

二、学习爬虫的目的

爬虫可以帮助我们快速、自动地获取互联网上的各种数据，包括新闻、天气、价格、股票数据等，这些数据对于研究、分析和决策都非常有用，并且当我们写论文时也不可避免地需要大量数据。

三、爬虫的用途

搜索引擎：爬虫可以自动地、大规模地抓取互联网上的网页信息，并将这些网页数据进行分析、处理和存储，以供搜索引擎的索引和搜索功能使用。
数据分析：爬虫能够自动化地从各种网站、社交媒体平台等在线资源中收集大量数据。这些数据可以包括文本、图片、视频、链接等，为数据分析提供丰富的原材料。
舆情分析
信息监控
信息聚合
应用开发

四、爬虫的分类

一、通用爬虫

通用爬虫是一种能够自动抓取互联网上各种网站信息的爬虫，它们不针对特定的网站，而是通过智能化的方式发现和抓取网页。比如百度、谷歌、搜狗等搜索引擎的数据都是通过通用爬虫抓取而来的。通用爬虫一般用于搜索引擎等需要广泛收集网页信息的应用中，具有以下特点：

广泛性：通用爬虫可以访问和抓取互联网上的绝大多数网站，具有很强的覆盖能力。
自动化：通用爬虫能够自动发现和抓取网页，无需人工干预，提高了效率。
智能化：通用爬虫通常会根据网页连接关系进行智能化的抓取，以尽可能全面地收集网页信息。
持续性：通用爬虫可以持续地抓取网页信息，保持数据的更新和完整性。
去重处理：通用爬虫会对抓取到的网页进行去重处理，避免重复抓取相同内容。
性能优化：通用爬虫会针对不同类型的网站和网络环境进行性能优化，提高抓取效率。

二、聚焦爬虫

聚焦爬虫是一种针对特定网站或特定类型网站进行定制开发的爬虫程序。与通用爬虫不同，聚焦爬虫的抓取范围更为有限，主要用于针对特定需求或特定网站的数据抓取。聚焦爬虫有以下特点：

定制性强：聚焦爬虫根据特定需求定制开发，可以针对性地抓取目标网站的特定信息。
精准度高：由于定位明确，聚焦爬虫可以精准地抓取目标网站的所需信息，减少无效数据的抓取。
效率高：相比普通爬虫，聚焦爬虫只需抓取目标网站的特定内容，因此效率更高，消耗的资源更少。
隐蔽性强：聚焦爬虫一般不会频繁访问大量网站，降低了被目标网站封禁的风险。
数据处理：聚焦爬虫通常会对抓取到的数据进行处理和分析，以便更好地满足特定需求。
定时更新：聚焦爬虫可以定时更新目标网站的数据，保持数据的新鲜性和有效性。

三、增量式爬虫

增量式爬虫则会在上一次抓取的基础上，只抓取新增或有更新的数据，从而减少了重复抓取和提高了效率，增量式爬虫适用于需要频繁更新数据的场景，比如新闻网站、论坛等内容更新较快的网站。通过增量式爬虫，可以及时获取到最新的数据，保持数据的及时性和准确性。

四、深层网络爬虫

深层网络爬虫专门用来抓取存在于互联网深层的页面，这些页面通常是非结构化的，需要通过特定的查询参数或请求才能访问。深层网络爬虫可能需要更多的技术和资源来实现高效的网页抓取。

五、爬虫的工作流程

发送请求：爬虫首先发送HTTP请求到目标网站
获取响应：获取请求返回的相应内容
解析响应、提取数据：爬虫解析响应内容，提取需要的信息，比如url链接、文本数据等
存储数据：爬虫将提取的信息存储到本地文件或数据库中。

六、robots协议

Robots协议（也称为robots.txt) 是一个位于网站根目录下的文本文件，用于指示搜索引擎爬虫哪些页面可以访问，哪些页面不应该被访问。该文件包含一系列规则，定义了爬虫对网站的访问权限。

User-agent:指定了爬虫的名称或标识符
Disallow:指定了不允许被访问的URL路径。

博客等级

码龄3年

5
原创

63
点赞

83
收藏

22
粉丝

关注

私信

热门文章

上一篇：: 解决BERT模型bert-base-chinese报错（无法自动联网下载）

最新评论

解决BERT模型bert-base-chinese报错（无法自动联网下载）
2301_79690215: 请问本地开VPN训练过一次，之后不用开就可以训练，能不能将本地的模型迁移到服务器上
爬虫的基础知识
优快云-Ada助手: 恭喜用户写了第5篇博客《爬虫的基础知识》，内容涉及到了技术领域的重要知识点，让读者们有机会了解与学习。希望用户能够继续保持创作的热情，不断分享自己的见解和经验。建议用户在以后的创作中，可以深入探讨一些高级技术或者实践经验，让读者们得到更多的启发和帮助。期待用户更多优质的博客作品！
python基础一
优快云-Ada助手: 恭喜你完成了第三篇博客！看到你探索蓝桥杯python备赛的内容，我感到非常高兴。你对python基础的了解和实践能力令人钦佩。希望你能继续保持这种积极的创作态度，不断分享你的学习心得和经验。作为下一步的创作建议，或许你可以考虑深入研究一些高级的python技术或者挑战更具挑战性的题目，这样可以更好地提升自己的编程水平。我期待着你未来更多博客的发布！优快云正在通过评论红包奖励优秀博客，请看红包流：https://bbs.youkuaiyun.com/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3
什么是网络地址什么是主机地址以及广播地址
优快云-Ada助手: 非常棒的博客！你对网络地址、主机地址和广播地址的解释非常清晰易懂。继续写作，将有助于更多人理解和学习相关知识。除了你在标题和摘要中提到的内容，还有一些与IP地址相关的扩展知识和技能。一个重要的扩展知识是子网划分和子网掩码。通过对IP地址和子网掩码进行逻辑“与”运算，可以确定主机所在的子网，进而进行更精细的网络划分和管理。此外，了解IP地址分类和私有IP地址也是很有帮助的。IP地址分类将IP地址分为A、B、C、D和E五类，每类有不同的网络地址和主机地址范围。而私有IP地址是指用于内部网络的IP地址范围，不会在公共互联网中被路由转发。希望这些扩展知识能够对你的博客写作提供一些参考。再次感谢你的分享，期待你的下一篇文章！如何写出更高质量的博客，请看该博主的分享：https://blog.youkuaiyun.com/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2

大家在看

最新文章

目录

展开全部

收起

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

搬砖修狗 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。