爬虫（9） - Scrapy框架(1) | Scrapy 异步网络爬虫框架

最新推荐文章于 2025-07-07 07:02:32 发布

原创

最新推荐文章于 2025-07-07 07:02:32 发布 · 779 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#爬虫 #scrapy #flask #计算机

本文介绍了Scrapy，一个基于Twisted的Python爬虫框架。内容包括Scrapy的组件结构，如Engine、Scheduler、Downloader、Spiders和Item Pipeline，以及下载和Spider中间件的作用。此外，还详细说明了Scrapy的安装过程、创建爬虫项目的方法，包括items.py、pipelines.py、settings.py等文件的用途。文中提供了启动爬虫的不同方式，并给出了一个爬取土巴兔装修网站信息并存储到MongoDB的示例项目。

🚀 优质资源分享 🚀

学习路线指引（点击解锁）	知识定位	人群定位
🧡 Python实战微信订餐小程序 🧡	进阶级	本课程是python flask+微信小程序的完美结合，从项目搭建到腾讯云部署上线，打造一个全栈订餐系统。
💛Python量化交易实战💛	入门级	手把手带你打造一个易扩展、更安全、效率更高的量化交易系统

什么是Scrapy

基于Twisted的异步处理框架
纯python实现的爬虫框架
基本结构：5+2框架，5个组件，2个中间件

5个组件：

**Scrapy Engine：**引擎，负责其他部件通信进行信号和数据传递；负责Scheduler、Downloader、Spiders、Item Pipeline中间的通讯信号和数据的传递，此组件相当于爬虫的“大脑”，是整个爬虫的调度中心
**Scheduler：**调度器，将request请求排列入队，当引擎需要交还给引擎，通过引擎将请求传递给Downloader；简单地说就是一个队列，负责接收引擎发送过来的 request请求，然后将请求排队，当引擎需要请求数据的时候，就将请求队列中的数据交给引擎。初始的爬取URL和后续在页面中获取的待爬取的URL将放入调度器中，等待爬取，同时调度器会自动去除重复的URL（如果特定的URL不需要去重也可以通过设置实现，如post请求的URL）
**Downloader：**下载器，将引擎engine发送的request进行接收，并将response结果交还给引擎engine，再由引擎传递给Spiders处理
**Spiders：**解析器，它负责处理所有responses，从中分析提取数据，获取Item字段需要的数据，并将需要跟进的URL提交给引擎，再次进入Scheduler(调度器)；同时也是入口URL的地方
**Item Pipeline：**数据管道，就是我们封装去重类、存储类的地方，负责处理 Spiders中获取到的数据并且进行后期的处理，过滤或者存储等等。当页面被爬虫解析所需的数据存入Item后，将被发送到项目管道(Pipeline)，并经过几个特定的次序处理数据，最后存入本地文件或存入数据库

2个中间件：

**Downloader Middlewares：**下载中间件，可以当做是一个可自定义扩展下载功能的组件，是在引擎及下载器之间的特定钩子(specific hook)，处理Downloader传递给引擎的response。通过设置下载器中间件可以实现爬虫自动更换user-agent、IP等功能。
**Spider Middlewares：**爬虫中间件，Spider中间件是在引擎及Spider之间的特定钩子(specific hook)，处理spider的输入(response)和输出(items及requests)。自定义扩展、引擎和Spider之间通信功能的组件，通过插入自定义代码来扩展Scrapy功能。

Scrapy操作文档(中文的)：https://www.osgeo.cn/scrapy/topics/spider-middleware.html