我们在随机爬取某个网站的时候,比如对网站发出成千上万次的请求,如果
user-agent
都是一样的,就很容易被服务器识别出你是一个爬虫。因此在发送请求多了之后我们就要随机更换我们的user-agent
,使服务器不那么容易去识别。那么如何在scrapy框架中如何随机更换请求头呢?
事先声明:在阅读本文之前,要对python爬虫和scrapy框架有一定的了解!!!
-
用以下三条命令在cmd中执行,建立名为
downloadmiddleware
的scrapy框架,里面包含一个名为httpbin
的Spider:
scrapy startproject downloadmiddleware
cd downloadmiddleware
scrapy genspider httpbin httpbin.org
-
用pycharm打开此文件,可看到文件的框架如图片左侧(这里我又建立一个run.py文件,代码如图片右侧,方便整个框架的运行):
-
httbbin.py中的代码如下:
import scrapy class HttpbinSpider(scrapy