Python爬虫| 爬虫框架Scrapy的构架、工作原理及工作流程是怎样的？

原创

已于 2023-08-03 10:47:53 修改 · 1.8k 阅读

·

1

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#python #爬虫 #scrapy

于 2023-08-02 18:54:04 首次发布

Scrapy是一个Python开源爬虫框架，用于高效抓取网页并提取结构化数据。其基本原理是通过发送HTTP请求获取内容，使用Xpath或CSS选择器解析。框架核心组件包括引擎、调度器、下载器、爬虫和管道，以及下载和Spider中间件。Scrapy的工作流程涉及请求对象的调度、下载、解析、数据存储等步骤。该框架具有高度可扩展性和灵活性，支持异步IO和分布式爬虫。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

在这里插入图片描述

**1、**Scrapy框架的介绍

Scrapy是一个基于Python的开源网络爬虫框架，是一个快速、高层次的屏幕抓取和web抓取框架，用于抓取web站点并从页面中提取结构化的数据。它可以帮助开发者快速、高效地从网站上获取数据。

Scrapy用途广泛，可以用于数据挖掘、监测和自动化测试。

Scrapy吸引人的地方在于它是一个框架，任何人都可以根据需求方便的修改。它也提供了多种类型爬虫的基类，如BaseSpider、sitemap爬虫等。

尽管Scrapy原本是设计用来屏幕抓取（更精确的说，是网络抓取），但它也可以用来访问API来提取数据。

2、Scrapy框架的基本原理

Scrapy框架的基本原理是通过发送HTTP请求获取网页内容，然后使用Xpath或CSS选择器等工具解析网页内容，最后新数据存储到数据库或文件中。

3、爬虫框架scrapy架构

scrapy框架的核心组件由五大组件引擎、调度器、下载器、爬虫、管道和中间件组成。

五大组件是调度器(Scheduler)，下载器(Downloader)，爬虫(Spider)，实体管道(Item Pipeline)，Scrapy引擎(Scrapy Fngine)。

3.1 Scrapy架构图

在这里插入图片描述

3.2 Scrapy五大组件及中间件

**（1）Scrapy Engine(引擎)：**是整个框架的核心，它负责控制整个爬虫的流程，

最低0.47元/天解锁文章

200万优质内容无限畅学

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。