Scrapy框架

Scrapy是一款强大的爬虫框架,用于网站数据抓取和结构化数据提取。它集成了并发请求、URL去重等功能,支持多种中间件,如Downloader中间件和Spider中间件,以实现复杂的网络请求和数据处理。Scrapy使用Twisted处理网络通讯,架构清晰,可灵活应对各种需求。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Scrapy是一个为了爬取网站数据、提取结构化数据而编写的爬虫应用框架。Scrapy内部实现了包括并发请求、免登录、URL去重等很多复杂操作,可以再settings中通过配置完成很多反爬虫,若需要额外功能,Scrapy还提供了多种中间件。
Scrapy框架主要有五个模块以及中间件:
1.Scrapy Engine(Scrapy引擎)

  • Scrapy Engine是用来控制整个爬虫系统的数据处理流程,并进行不同事物触发

2.Scheduler(调度器)

  • Scheduler维护着待爬取的URL队列,当调度器从Scrapy Engine 接受到请求时,会从待爬取的URL队列中取出下一个URL返还给他们。

3.Downloader(下载器)

  • Downloader从Scrapy Engine那里得到需要下载的URL,并向该网址发送
    网络请求进行页面网页,最后再将网页内容传递到Spiders来处理。如果需要定制更复杂的网络请求,可以通过Downloader中间件来实现,比如selenium浏览器完成免登录操作。

4.Spiders(蜘蛛)

  • Spiders 是用户需要编辑代码的部分,用户通过编写spider.py这个类实现
    指定要爬取的网站地址、定义网址过滤规则、解析目标数据等。Spider发送请求,并处理Scrapy Engine从下载器那得到的数据,把解析的数据以item的形式传递给Item Pipeline,把解析到的链接传递给Scheduler。

5.ltem Pipeline(项目管道)

  • ltem定义了爬虫要爬取的数据的数据的字段,类似于关系型数据库中表的字段名,用户编写item.py文件来实现这一功能。Pipeline主要负责处理Spider从网页中抽取的item,对item进行清洗、验证,并且将数据持久化,如将数据存入数据库或者文件。用户可以在这里连接数据库并进行保存。

6.Downloader middlewares(下载器中间件)

  • Downloader middlewares是位于Scrapy Engine 和Downloader之间的钩子框架,主要是处理Scrapy Engine与Downloader之间的请求及响应。可以代替接受请求、处理数据的下载以及将结果响应给Scrapy Engine。

7.Spider middlewares(蜘蛛中间件)

  • Spider middlewares是介于Scrapy Engine和Spiders之间的钩子框架,主要是处理Spiders的响应输入和请求输出。可以插入自定义的代码来处理发送给Spiders的请求和返回Spider获取的响应内容和项目。

Scrapy使用Twisted这个异步网络库来处理网络通讯,架构清晰,可以灵活的完成各种需求。架构图如下:
在这里插入图片描述

图中绿色线条表示数据流向,首先从初始 URL 开始,Scheduler 会将其交给 Downloader,Downloader向网络服务器发送服务请求进行下载,得到响应后将下载的数据交给Spider,Spider会对网页进行分析,分析出来的结果有两种:一种是需要进一步抓取的链接,这些链接会被传回 Scheduler;另一种是需要保存的数据,它们则被送到 Item Pipeline,Item会定义数据格式, 最后由Pipeline对数据进行清洗、去重等处理后存储到文件或数据库。
Scrapy数据流是由执行的核心引擎(engine)控制,流程是这样的:

  1. 引擎打开一个域名,蜘蛛处理这个域名,并让蜘蛛获取第一个爬取的URL。
  2. 引擎从蜘蛛那获取第一个需要爬取的URL,然后作为请求在调度中进行调度。
  3. 引擎从调度那获取接下来进行爬取的页面。
  4. 调度将下一个爬取的URL返回给引擎,引擎将他们通过下载中间件发送到下载器。
  5. 当网页被下载器下载完成以后,响应内容通过下载中间件被发送到引擎。
  6. 引擎收到下载器的响应并将它通过蜘蛛中间件发送到蜘蛛进行处理。
  7. 蜘蛛处理响应并返回爬取到的item,然后给引擎发送新的请求。
  8. 引擎发送处理后的item到项目管道,然后把处理结果返回给调度器,调度器计划处理下一个请求抓取。
  9. 系统重复2-9的操作,直到调度中没有请求,然后断开引擎与域之间的联系。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值