Scrapy基础知识

Scrapy是一个Python开发的web抓取框架,用于数据挖掘和自动化测试。其工作流程包括Engine、Scheduler、Downloader、Spiders、Item Pipeline和中间件。Engine负责流程控制,Scheduler调度请求,Downloader获取网页,Spiders解析数据,Item Pipeline处理和存储数据,而中间件则提供了请求和响应的定制处理功能。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1.定义
Scrapy是Python开发的一个快速、高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试。
2.执行流程图
这里写图片描述
3.组件
a).Scrapy Engine(引擎)
Scrapy引擎负责整个框架的数据处理流程,并进行事务的出发,也就是什么时候触发什么事件,由它来进行分配调用。
b).Scheduler(调度器)
调度器负责发送请求给下载器
c).Downloader(下载器)
下载器作用是负责抓取网页信息并把相应返回给蜘蛛(Spiders)。
d).Spiders(蜘蛛)
Spiders接受Resopnse并解析数据,通过Item 发送给Pipline
e).Item Pipeline(项目管道)
实际上分为两部分:Items和PIplines
Items定义数据模型
Piplins从Spiders接受Item数据,对数据进行后期处理:过滤,清洗,入库等操作
f).Downloader middlewares(下载器中间件)
下载器中间件位于下载器和引擎之间的钩子框架,负责Request和Response的特殊处理,比如修改请求头,设置IP等
这里写图片描述
g).Spider middlewares
蜘蛛中间件是介入到Scrapy中的spider处理机制的钩子框架,可以插入自定义功能来处理发送给 Spiders 的response,以及spider产生的item和request
这里写图片描述
4.Scrapy Github源码截图,整个框架的目录结构
这里写图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值