scrapy处理其他类型状态码
如果不做处理,当scrapy获取的页面为404或者其他状态码的时候scrapy会跳过处理这些页面,不会进入类似下面代码中的处理方法。

如果需要使用类似方法处理相关状态码,只需要在爬虫类中加上
handle_httpstatus_list = [404]
即可。
本文介绍如何在Scrapy中处理404等非标准HTTP状态码,通过在爬虫类中添加特定属性,使Scrapy能够继续执行页面处理逻辑,避免因状态码问题导致的数据丢失。
如果不做处理,当scrapy获取的页面为404或者其他状态码的时候scrapy会跳过处理这些页面,不会进入类似下面代码中的处理方法。

如果需要使用类似方法处理相关状态码,只需要在爬虫类中加上
handle_httpstatus_list = [404]
即可。
1142
492
1203
845

被折叠的 条评论
为什么被折叠?