爬虫入门之爬虫基础了解

本文介绍了爬虫的基本概念和工作原理,包括爬虫如何模拟浏览器请求,用户浏览网页的过程,URL的含义,以及爬虫开发的环境配置和个人思想。强调爬虫主要抓取HTML代码并通过分析过滤获取所需数据。同时提到了Python环境的配置和版本选择在爬虫学习中的重要性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

今年入了python的坑,而入坑的缘由很大都是因为爬虫。而入门爬虫,我们需要大致的来了解一下什么是爬虫?以及爬虫工作的原理。从而方便以后的学习。本博客只用于交流学习以及记录自己的成长过程,若有不足和有待改进的地方,希望各位大佬、朋友指出。互相学习!互相交流!

1、什么是爬虫

爬虫,即网络爬虫(搜索引擎爬虫),可以理解为在网络上爬行的一只蜘蛛。将互联网比做一张大网,而爬虫便是这张网上爬来爬去的蜘蛛,而资源就是‘猎物’,需要什么资源,就由人为的来控制。
利用爬虫抓取一个网页,在这个‘网’中它发现了一条‘道路’#指向网页的超链接#。那么爬虫就能到另一个‘网’中爬取数据。这样,整个连在一起的‘大网’#互联网#对这只蜘蛛来说触手可及,获取所需资源也是分分钟的事。
学习过前端的同学应该知道,每一个 a 标签#(https://www.jianshu.com/p/f9720dca4aed)<HTML 标签>#就是一条道路,由此也可以去理解,爬虫直接爬取的并不是我们所需的网络资源,而是爬取网页的源代码,然后我们再手动操作过滤选择我们所需资源的url#网络资源定位符/链接#,最终再下载或者操作我们所需的数据,从而达到我们的目的。
理论上来讲只要是网页上能够看到的数据都可以爬取(‘因为所有看到的网页上的数据都是由服务器发送到电脑上的,只是有的数据经过加密,很难解密’)。在网页上无法看到或者无法获取的数据,爬虫同样不可能拿到,比如一些付费资料(付费的主要是现在还不会哈哈哈哈)。
每个大型的搜索引擎都是很强大的,国内的例如:百度、好搜、搜狗等。
以上只是个人对爬虫的浅薄见解,百度百科(https://baike.baidu.com/item/搜索引擎爬虫/20256370?fr=aladdin)有更加专业、权威的解释,有兴趣的朋友可以去看一看。

*爬虫

评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值