笔记十四:基于scrapy_redis部署的scrapy分布式爬虫
大家都知道scrapy是一个快速高效爬去网页信息的爬虫框架,但是当面对大量的信息大量的url(几千几万等以上),用一个服务器爬还是很慢的,所以尼就出现了一个项目多个服务器共同爬去的方法,就是分布式,即主从服务器,一个主机控制运行暂停等操作,多个从属服务器爬去数据,从属服务器只是用来帮忙爬去数据,从主机服务器那里拿url,再返回响应(包含信息或者新的url),那每个从属服务器每次拿的url怎么保证不...
原创
2018-09-27 22:37:47 ·
726 阅读 ·
0 评论