Scrapy基础知识

最新推荐文章于 2024-08-05 10:37:56 发布

原创最新推荐文章于 2024-08-05 10:37:56 发布 · 459 阅读

CC 4.0 BY-SA版权

Scrapy是一个Python开发的web抓取框架，用于数据挖掘和自动化测试。其工作流程包括Engine、Scheduler、Downloader、Spiders、Item Pipeline和中间件。Engine负责流程控制，Scheduler调度请求，Downloader获取网页，Spiders解析数据，Item Pipeline处理和存储数据，而中间件则提供了请求和响应的定制处理功能。

1.定义
Scrapy是Python开发的一个快速、高层次的屏幕抓取和web抓取框架，用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛，可以用于数据挖掘、监测和自动化测试。
2.执行流程图
这里写图片描述
3.组件
a).Scrapy Engine(引擎)
Scrapy引擎负责整个框架的数据处理流程，并进行事务的出发，也就是什么时候触发什么事件，由它来进行分配调用。
b).Scheduler(调度器)
调度器负责发送请求给下载器
c).Downloader(下载器)
下载器作用是负责抓取网页信息并把相应返回给蜘蛛（Spiders）。
d).Spiders(蜘蛛)
Spiders接受Resopnse并解析数据，通过Item 发送给Pipline
e).Item Pipeline(项目管道)
实际上分为两部分：Items和PIplines
Items定义数据模型
Piplins从Spiders接受Item数据，对数据进行后期处理：过滤，清洗，入库等操作
f).Downloader middlewares(下载器中间件)
下载器中间件位于下载器和引擎之间的钩子框架，负责Request和Response的特殊处理，比如修改请求头，设置IP等
这里写图片描述
g).Spider middlewares
蜘蛛中间件是介入到Scrapy中的spider处理机制的钩子框架，可以插入自定义功能来处理发送给 Spiders 的response，以及spider产生的item和request

4.Scrapy Github源码截图，整个框架的目录结构