scrapy处理其他类型状态码

最新推荐文章于 2025-05-12 21:08:55 发布

原创最新推荐文章于 2025-05-12 21:08:55 发布 · 917 阅读

0 ·

CC 4.0 BY-SA版权

本文介绍如何在Scrapy中处理404等非标准HTTP状态码，通过在爬虫类中添加特定属性，使Scrapy能够继续执行页面处理逻辑，避免因状态码问题导致的数据丢失。

scrapy处理其他类型状态码

如果不做处理，当scrapy获取的页面为404或者其他状态码的时候scrapy会跳过处理这些页面，不会进入类似下面代码中的处理方法。
在这里插入图片描述

如果需要使用类似方法处理相关状态码，只需要在爬虫类中加上

                                          handle_httpstatus_list = [404]

即可。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

ly20140

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

Scrapy遇到http状态码521：Crawled (521)的解决方案

Dzboy

07-20

2522

大家好，我是专职Android研发，有14年研发经验，其中Android研发经验已经有10年。曾任职上市公司，有车机导航、机器人等行业及研发经验，热衷于技术和研发。除Android专业外，也研究并使用Python、PHP、JavaScript、前端、中间件、数据库等技术。目前开始通过博客对自己的知识和经验进行归纳和总结，由于工作较忙，不定期去更新博客。希望本博客的内容能够真正帮助到一些同学。

Scrapy爬虫框架 Exceptions 异常处理

Mr数据杨

02-01

3万+

在网络爬虫开发过程中，异常处理是确保程序稳定性和可靠性的重要环节。Scrapy 作为一个功能强大的 Python 爬虫框架，提供了丰富的工具和机制来帮助开发者应对各种异常情况。在本指南中，我们详细探讨了如何处理与 Spider、Item、请求、配置及支持相关的异常，这些内容涵盖了爬虫开发的核心领域。在实际应用中，这些异常处理方法不仅可以帮助我们及时发现并解决问题，还可以提高爬虫的健壮性，使其在复杂多变的网络环境中依然能够稳定运行。

参与评论您还未登录，请先登录后发表或查看评论

scrapy post发送请求400状态码

Cocktail_py的博客

01-06

391

# 请求头注释掉Content-Length # 'Content-Length': '38' 参考:https://www.jianshu.com/p/ed3924385baf

【scrapy】爬虫，从429状态码说起

xiangxiang613的专栏

06-18

3046

（1）添加header信息，使其看起来更像浏览器访问。- 固定user-Agent：如下面是google浏览器的请求信息，当固定使用一个时，被识别为爬虫的风险很高Win64;轮换User-Agent：每次请求时就随机切换一个，模仿不同浏览器和设备访问（2）- 有些服务器会在返回的头部中添加"Retry-After"，告诉你多久之后重试。获取这个值，然后sleep就可以了。- 在setting.py中增加请求延长时间，可以固定或者随机选择一个时间进行动态延时。

【scrapy】关于scrapy有用的设置

一只小爬虫的博客

04-27

420

meta添加dont_redirect可以禁止重定向，dont_filter是否过滤。dont_redirect=True # 添加到请求的meta中。这段代码可以通过更改一个配置参数实现测试环境和生产环境的配置。REDIS_HOST redis地址。REDIS_PORT redis端口。‘password’: ‘你的密码’,‘db’: ‘你的数据库’

scrapy晋级---------处理返回状态码异常,ip超时

qq_41676216的博客

10-31

2892

简单粗暴些,利用scrapy 框架原理自定义middleware 处理状态码异常,ip 超时的异常,重现发送请求, 这里需要重写scrapy 内置的中间件 RetryMiddleware, middlewares.py class Process_Proxies(RetryMiddleware): logger = logging.getLogger(__name__) ...

Scrapy 爬虫异常处理的实践指南

LYFYSZ123的博客

02-10

988

Scrapy 爬虫异常处理是一个重要的环节，可以通过使用 try-except 语句块、中间件、errback 回调函数等方法来捕获和处理异常。遵循及时捕获和记录异常信息、合理设计重试机制、良好的日志记录等基本原则，可以有效提高爬虫的稳定性和健壮性。

【Python爬虫必备—＞Scrapy框架快速入门篇——上】

最新发布

Python编程之道的博客

05-12

1142

在网络数据抓取过程中，很多网站需要用户通过表单提交信息来获取特定的数据。Scrapy是Python中一个强大的网络爬虫框架，本文章的目的就是详细介绍如何使用Scrapy来处理表单提交，从而实现对这类网站的数据抓取。范围涵盖了从基础概念到实际项目应用，以及相关工具资源的推荐等方面。本文首先介绍背景知识，包括目的、预期读者和文档结构等。接着阐述核心概念与联系，通过文本示意图和Mermaid流程图展示。然后详细讲解核心算法原理和具体操作步骤，给出数学模型和公式。之后通过项目实战展示代码实现和解读。

常见的scrapy配置

Awesome_py的博客

03-29

493

【代码】常见的scrapy配置。

关于使用scrapy绕过400状态码报错，停止爬取的方法

Alonelies的博客

10-26

1203

关于使用scrapy绕过400状态码报错，停止爬取的方法我在爬起点小说网的时候，因为是扫网页，也就是一个一个去试，导致不可避免的会访问到400的请求而scrapy在遇到400的状态码的时候会自动停止爬取，在爬虫文件中的parse方法里获取不到返回的信息直接给你报错，然后终止爬虫工作，就很烦。。。在网上找了好久，终于找到一个方法，能在获取到400后不停止，直接返回到爬虫文件的parse中的response 在settings.py中设置 # 忽略400报错，直接传入parse HTTPERROR_

Scrapy处理异常状态码

disparity_CJK的博客

02-20

5275

一、Scrapy框架跳过异常状态码 当爬取页面状态码是异常状态码，但response是正常的时候，正常情况Scrapy框架会判断状态码，如果不是正常状态码会停止后续操作。 .../lib/python3.5/site-packages/scrapy/spidermiddlewares/httperror.py def process_spider_input(s...

在scrapy源码中添加功能，对HTTP响应状态码493的url进行保存

RonnyChan的博客

08-19

5011

在scrapy爬虫过程中，遇到了这样一个问题： [scrapy.spidermiddlewares.httperror] INFO: Ignoring response <493> HTTP status code is not handled or not allowed 我们翻译一下（百度翻译）：忽略响应< 493 >不处理或不允许HTTP状态代码经测试...

scrapy用到的一些配置问题

Andy_spf的博客

11-07

1876

从settings开始 scrapy默认只处理200-300的状态码，当有特殊状态码出现的时候就需要自己将要处理的状态码添加进去，然后判断response.status HTTPERROR_ALLOWED_CODES = [403] 有些网站会检测出scrapy的cookie值，因此要禁用cookie，注意这个禁用的只是scrapy自己的cookie而不是设置的 COOKIE

scrapy 状态码400问题

qq_38759383的博客

05-22

845

scrapy 状态码400问题

爬虫小知识（一）：Scrapy爬虫捕获403状态码抛出CloseSpider异常

Mrrrrr10's Blog

09-05

4063

1、爬数据的时候，有时会遇到被该网站封IP等情况，response的状态码为403，那么这时候我们希望能够抛出 CloseSpider的异常。 2、但是如scrapy官网提到的，Scrapy默认的设置是过滤掉有问题的HTTP response(即response状态码不在200-300之间)。因此403的情况会被ignore掉，也就是及时我们用response.status == 400判...

Scrapy爬虫捕获403状态码抛出CloseSpider异常

haipengdai的博客

09-17

1万+

[Scrapy使用技巧] 如何在scrapy中捕获并处理各种异常

Rei的博客

06-15

3万+

前言使用scrapy进行大型爬取任务的时候（爬取耗时以天为单位），无论主机网速多好，爬完之后总会发现scrapy日志中“item_scraped_count”不等于预先的种子数量，总有一部分种子爬取失败，失败的类型可能有如下图两种（下图为scrapy爬取结束完成时的日志）： scrapy中常见的异常包括但不限于：download error（蓝色区域）, http code 40...