转载自 https://blog.youkuaiyun.com/Q_AN1314/article/details/51104701
Scrapy的CloseSpider扩展会在满足条件时自动终止爬虫程序。可以设置CLOSESPIDER_TIMEOUT(秒)、CLOSESPIDER_ITEMCOUNT、CLOSESPIDER_PAGECOUNT、CLOSESPIDER_ERRORCOUNT分别代表在指定时间过后、在抓取了指定数目的Item之后、在收到了指定数目的响应之后、在发生了指定数目的错误之后就终止爬虫程序。通常情况下可以在命令行中设置:
$ scrapy crawl fast -s CLOSESPIDER_ITEMCOUNT=10
$ scrapy crawl fast -s CLOSESPIDER_PAGECOUNT=10
$ scrapy crawl fast -s CLOSESPIDER_TIMEOUT=10

本文介绍了Scrapy框架中CloseSpider扩展的使用方法及其配置项,包括如何通过设置不同的参数来控制爬虫程序的自动终止条件,如时间限制、抓取的item数量等。
530

被折叠的 条评论
为什么被折叠?



