Python爬虫——爬虫是什么都可以爬的吗?
初识“爬虫”这个词时,想必大家都会和我一样,认为“爬虫”就是爬取网站上的各种内容,可以抓取网站的信息为我们所用。
但事实并不是这么“简单”
也并不是网站上的所有内容你想爬就爬
在爬虫界有一种叫Robots协议来限制爬虫的范围。
Robots协议
Robots协议全程“网络爬虫排除标准”,网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不可以抓取。
以下是淘宝网的robots.txt部分代码:
从这里的代码里我们可以看到,Robots协议是对搜索的搜索范围进行了限制的
并不是可以让爬虫在网站里“肆意妄爬”
细心的朋友还会发现淘宝网对于不同的搜索引擎所开放的程度是不一样的
淘宝网的产品页面,对谷歌是开放的,而对于百度是不允许的
这就是对于Robots协议的简单介绍
对于今后的爬虫,都应该遵守Ro