Scrapy-redis改造scrapy实现分布式多进程爬取
一.基本原理:
Scrapy-Redis则是一个基于Redis的Scrapy分布式组件。它利用Redis对用于爬取的请求(Requests)进行存储和调度(Schedule),并对爬取产生的项目(items)存储以供后续处理使用。scrapy-redi重写了scrapy一些比较关键的代码,将scrapy变成一个可以在多个主机上同时运行的分布式爬虫。
参考Scrapy-Redis
原创
2017-06-21 16:54:44 ·
10576 阅读 ·
0 评论