注意:
该篇文章为转载内容,此处只是为了巩固一下scrapy-redis的注意事项,scrapy-redis 现已在公司项目中稳稳当当的运行了,
可以查看该篇文章:
http://xudailong.gitee.io/2018/01/09/python_crawl_words/
由于Scrapy_redis已经为封装了大部分的流程,所以使用它不会有任何难度。
1.启动Redis
首先需要把Redis启动起来。使用Mac OS/Linux的同学在终端下面输入以下命令并回车:
redis-server
使用Windows的同学,在CMD中cd进入存放Redis的文件夹,并运行:
redis-server.exe
2.修改爬虫
在前面的课程中,我们爬虫是继承自scrapy.Spider这个父类。这是Scrapy里面最基本的一个爬虫类,只能实现基本的爬虫功能。现在需要把它替换掉,从而实现更高级的功能。
请对比一下下面这段使用了Scrapy_redis的代码与前面read color网站爬虫的代码头部有什么不同:
from scrapy_redis.spiders import RedisSpider class ReadColorSpider(RedisSpider): name = "readcolorspider" redis_key = 'rea