Python scrapy 判断状态码自动退出

最新推荐文章于 2024-05-31 21:24:28 发布

Test_C.

最新推荐文章于 2024-05-31 21:24:28 发布

阅读量3.1k

点赞数

CC 4.0 BY-SA版权

分类专栏： Python scrapy

本文链接：https://blog.youkuaiyun.com/weixin_42544006/article/details/84668696

Python 同时被 2 个专栏收录

110 篇文章

订阅专栏

scrapy

16 篇文章

订阅专栏

本文介绍如何在Scrapy爬虫中通过中间件（middlewares.py）判断并处理HTTP状态码，当遇到特定状态码时实现爬虫自动退出的功能。

爬虫文件

# -*- coding: utf-8 -*-
import scrapy

class TestSpider(scrapy.Spider):
    name = 'test'
    # allowed_domains = ['www.baidu.com']
    start_urls = ['https://www.youkuaiyun.com/1']

    # 本地爬虫配置文件
    custom_settings = {
        'DOWNLOADER_MIDDLEWARES' : {
           'Test_C.middlewares.Random_UA': 1,
            # 'Test_C.middlewares.RZ_proxy':2
        },
        # 自动退出
        'SPIDER_MIDDLEWARES':{
            'Test_C.middlewares.Close_spider': 20,
        },
        # 下载超时时间
        'DOWNLOAD_TIMEOUT':5,
        # 下载重试次数
        'RETRY_TIMES':3
    }

    def parse(self, response):
        print('*_'*20)
        print(response.status)
        print('*_'*20)

middlewares.py 文件

from scrapy.exceptions import CloseSpider

class Close_spider(object):
    def process_spider_input(self,response,spider):
        if not 200 <= response.status <= 300:
            raise CloseSpider('%s爬虫异常,退出!'%response.url)
        return None

    def process_spider_output(self,response,result,spider):
        for res in result:
            yield res