
分布式爬虫
依剑仗天涯
实践是检测真理的唯一方法!
展开
-
scrapy与scrapy-redis的区别和联系
scrapy 是一个通用的爬虫框架,但是不支持分布式。scrapy-redis是为了更方便地实现scrapy分布式爬取,而提供了一些以redis为基础的组件(注意,scrapy-redis只是一些组件,而不是一个完整的框架)。Scrapy-redis实现分布式爬虫的简易教程:https://www.jianshu.com/p/ed5afa658ccb?from=jiantop.com...原创 2018-04-06 13:47:55 · 363 阅读 · 0 评论 -
爬虫的应对措施
网站提供者检测爬虫的手段:1、检查User-Agent 应对:构造User-Agent和refer字段2、检测用户行为,如同一个IP短时间内频繁登录 应对:代理IP,设置sleep时间3、动态页面 应对:Selenium和phantomJS为了防止在爬取中被对方禁止,下面我们在Scrapy中实现如下: 1、禁止Cookie 2、设置下载延时 ...原创 2018-05-03 20:43:11 · 467 阅读 · 0 评论