爬虫入门之爬虫基础了解

最新推荐文章于 2024-02-26 10:01:06 发布

qq_41113514

最新推荐文章于 2024-02-26 10:01:06 发布

阅读量451

点赞数 3

CC 4.0 BY-SA版权

分类专栏：心得文章标签：爬虫入门自学思想

本文链接：https://blog.youkuaiyun.com/qq_41113514/article/details/96300369

本文介绍了爬虫的基本概念和工作原理，包括爬虫如何模拟浏览器请求，用户浏览网页的过程，URL的含义，以及爬虫开发的环境配置和个人思想。强调爬虫主要抓取HTML代码并通过分析过滤获取所需数据。同时提到了Python环境的配置和版本选择在爬虫学习中的重要性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

今年入了python的坑，而入坑的缘由很大都是因为爬虫。而入门爬虫，我们需要大致的来了解一下什么是爬虫？以及爬虫工作的原理。从而方便以后的学习。本博客只用于交流学习以及记录自己的成长过程，若有不足和有待改进的地方，希望各位大佬、朋友指出。互相学习！互相交流！

1、什么是爬虫

爬虫，即网络爬虫（搜索引擎爬虫），可以理解为在网络上爬行的一只蜘蛛。将互联网比做一张大网，而爬虫便是这张网上爬来爬去的蜘蛛，而资源就是‘猎物’，需要什么资源，就由人为的来控制。
利用爬虫抓取一个网页，在这个‘网’中它发现了一条‘道路’#指向网页的超链接#。那么爬虫就能到另一个‘网’中爬取数据。这样，整个连在一起的‘大网’#互联网#对这只蜘蛛来说触手可及，获取所需资源也是分分钟的事。
学习过前端的同学应该知道，每一个 a 标签#（https://www.jianshu.com/p/f9720dca4aed）<HTML 标签>#就是一条道路,由此也可以去理解，爬虫直接爬取的并不是我们所需的网络资源，而是爬取网页的源代码，然后我们再手动操作过滤选择我们所需资源的url#网络资源定位符/链接#，最终再下载或者操作我们所需的数据，从而达到我们的目的。
理论上来讲只要是网页上能够看到的数据都可以爬取（‘因为所有看到的网页上的数据都是由服务器发送到电脑上的，只是有的数据经过加密，很难解密’）。在网页上无法看到或者无法获取的数据，爬虫同样不可能拿到，比如一些付费资料（付费的主要是现在还不会哈哈哈哈）。
每个大型的搜索引擎都是很强大的，国内的例如：百度、好搜、搜狗等。
以上只是个人对爬虫的浅薄见解，百度百科（https://baike.baidu.com/item/搜索引擎爬虫/20256370?fr=aladdin）有更加专业、权威的解释，有兴趣的朋友可以去看一看。