python爬虫相关基础概念

最新推荐文章于 2024-10-04 10:19:07 发布

转载最新推荐文章于 2024-10-04 10:19:07 发布 · 83 阅读

·

0

·

CC 4.0 BY-SA版权

原文链接：http://www.cnblogs.com/wjs521/p/10314898.html

本文深入解析了爬虫的概念，介绍了使用PHP、Java、C/C++和Python等语言实现爬虫的特点，对比了不同语言的优势与局限。同时，文章还详细阐述了通用爬虫和聚焦爬虫的工作原理，以及robots.txt协议的作用和反爬虫、反反爬虫的技术策略。

什么是爬虫

　　爬虫就是通过编写程序模拟浏览器上网，然后让其去互联网上抓取数据的过程。

哪些语言可以实现爬虫

　　1.php：可以实现爬虫。但是php在实现爬虫中支持多线程和多进程方面做得不好。

　　2.java：可以实现爬虫。java可以非常好的处理和实现爬虫，是唯一可以与python并驾齐驱的。但是java实现爬虫代码较为臃肿，重构成本较大。

　　3.c、c++：可以实现爬虫。相比较来说难度比较大。

　　4.python：可以实现爬虫。python实现和处理爬虫语法简单，代码优美学习成本低，支持的模块比较多，具有非常强大的框架（scrapy等）。

爬虫的分类

　　1.通用爬虫：通用爬虫是搜索引擎（baidu、Google、Yahoo等）“抓取系统”的重要组成部分。主要目的是将互联网上的网页下载到本地，形成一个互联网内容的镜像备份。简单来讲就是尽可能的；把互联网上的所有的网页下载下来，放到本地服务器里形成备份，在对这些网页做相关处理（提取关键字、去掉广告），最后提供一个用户检索接口。

搜索引擎如何抓取互联网上的网站数据？

- 门户网站主动向搜索引擎公司提供其网站的url

- 搜索引擎公司与DNS服务商合作，获取网站的url

- 门户网站主动挂靠在一些知名网站的友情链接中

　　2.聚焦爬虫：聚焦爬虫是根据指定的需求抓取网络上指定的数据。例如：获取豆瓣上电影的名称和影评，而不是获取整张页面中所有的数据值。

robots.txt协议

　　- 如果自己的门户网站中的指定页面中的数据不想让爬虫程序爬取到的话，那么则可以通过编写一个robots.txt的协议文件来约束爬虫程序的数据爬取。robots协议的编写格式可以观察淘宝网的robots（访问www.taobao.com/robots.txt即可）。但是需要注意的是，该协议只是相当于口头的协议，并没有使用相关技术进行强制管制，所以该协议是防君子不防小人。但是我们在学习爬虫阶段编写的爬虫程序可以先忽略robots协议。

反爬虫

　　- 门户网站通过相应的策略和技术手段，防止爬虫程序进行网站数据的爬取。

反反爬虫

　　- 爬虫程序通过相应的策略和技术手段，破解门户网站的爬虫手段，从而爬取到相应的数据。

转载于:https://www.cnblogs.com/wjs521/p/10314898.html

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。