scrapy源码分析（二）----------ExecutionEngine（一）主循环

最新推荐文章于 2024-07-01 22:31:11 发布

self-motivation

最新推荐文章于 2024-07-01 22:31:11 发布

阅读量4.5k

点赞数 4

CC 4.0 BY-SA版权

分类专栏： Python 文章标签：爬虫 python scrapy engine scrape

本文链接：https://blog.youkuaiyun.com/happyAnger6/article/details/53385856

Python 专栏收录该内容

57 篇文章 ¥9.90 ¥99.00

订阅专栏

超级会员免费看

本文深入探讨Scrapy的ExecutionEngine，它是爬虫的核心组件，利用Twisted reactor驱动请求调度。ExecutionEngine包含slot（负责调度和跟踪请求）、下载器（处理网页下载）和数据抓取器（负责数据提取）。核心方法_next_request通过两种方式触发，从队列中获取请求并由下载器异步下载。当满足特定条件时，ExecutionEngine会检查是否需要暂停或关闭。后续教程将进一步解析下载器、slot和数据scraper的工作细节。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

ExecutionEngine是scrapy的核心模块之一，顾名思义是执行引擎。
它驱动了整个爬取的开始，进行，关闭。

它又使用了如下几个主要模块来为其工作：
1.slot:它使用Twisted的主循环reactor来不断的调度执行Engine的"_next_request"方法，这个方法也是核心循环方法。下面的
流程图用伪代码描述了它的工作流程，理解了它就理解了引擎的核心功能。
另外slot也用于跟踪正在进行下载的request。

2.downloader:下载器。主要用于网页的实际下载

3.scraper:数据抓取器。主要用于从网页中抓取数据的处理。也就是ItemPipeLine的处理。

根据上面的分析可知，主要是_next_request在不断的进行工作，因此这个函数重点分析，流程图如下:





流程详解：
1.这个_next_request方法有2种调用途径，一种是通过reactor的5s心跳定时启动运行，另一种则是在流程中需要时主动调用。

2.如果没有暂停，则运行。判断是否需要搁置？这个判断条件如右边紫色框中讲的，有4种需要搁置的