
scrapy
文章平均质量分 56
rorntuck7
这个作者很懒,什么都没留下…
展开
-
scrapy爬虫防ban策略总结
1.策略一:设置download_delay download_delay能够设置在settings.py中,也能够在spider中设置。 (1)settings.py 中配置 : DOWNLOAD_DELAY=3 (2)spider中配置: class 优快云BlogCrawlSpider(CrawlSpider): name = "优快云BlogCrawlSpider"原创 2017-09-11 16:34:05 · 16064 阅读 · 0 评论 -
使用scrapy 模拟登陆网站后 抓取会员中心相关信息
有时候爬取网站的时候需要登录,在Scrapy中可以通过模拟登录保存cookie后再去爬取相应的页面。重写start_requests方法要使用cookie,第一步得打开它,默认scrapy使用CookiesMiddleware中间件,并且打开了。如果你之前禁止过,请设置如下COOKIES_ENABLES = True 这里我重写了start_requests方法def start_requests原创 2017-09-12 11:39:33 · 529 阅读 · 0 评论