浅谈scrapy

本文介绍了Scrapy爬虫框架的优势及工作原理,通过对比requests+selenium等工具,突出了Scrapy在提升爬虫效率和健壮性方面的作用。文章还解释了Scrapy如何利用Twisted异步网络框架加速数据下载,并详细解析了Scrapy的工作流程。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1.为什么使用scrapy框架来写爬虫 ?
在python爬虫中:requests + selenium 可以解决目前90%的爬虫需求,难道scrapy 是解决剩下的10%的吗?然而并不是这样。scrapy框架是为了让我们的爬虫更强大、更高效, 让我们写的爬虫更具有健壮性。接下来我们一起认识一下它吧。

2.什么是scrapy?
Scrapy 使用了Twisted[‘twɪstɪd]异步网络框架,可以加快我们的下载速度。
Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架,我们只需要实现少量的代码,就能够快速的抓取。

3.异步和非阻塞的区别
前面我们说Twisted是一个异步的网络框架,经常我们也听到一个词语叫做非阻塞,那么他们有什么区别呢?
这里写图片描述

异步:调用在发出之后,这个调用就直接返回,不管有无结果;异步是过程
非阻塞:关注的是程序在等待调用结果(消息,返回值)时的状态,指在不能立刻得到结果之前,该调用不会阻塞当前线程。

4.scrapy的工作流程

  • 4.1 回顾之前的爬虫流程

这里写图片描述

  • 4.2 上面的流程可以改写为
    这里写图片描述

  • scrapy的流程
    这里写图片描述

  • 其流程可以描述如下:

    1.调度器把requests–>引擎–>下载中间件—>下载器
    2.下载器发送请求,获取响应—->下载中间件—->引擎—>爬虫中间件—>爬虫
    3.爬虫提取url地址,组装成request对象—->爬虫中间件—>引擎—>调度器
    4.爬虫提取数据—>引擎—>管道
    5.管道进行数据的处理和保存

    注意:
    图中绿色线条的表示数据的传递
    注意图中中间件的位置,决定了其作用
    注意其中引擎的位置,所有的模块之前相互独立,只和引擎进行交互

  • 4.4 scrapy中每个模块的具体作用
    这里写图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值