【Scrapy】scrapy 开发(1)-- 介绍

本文介绍了Scrapy爬虫框架的主要特点与组件,包括引擎、蜘蛛、调度器、下载器等,并详细阐述了Scrapy的工作流程及各组件的作用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

scrapy 简介

scrapy 是使用python语言开发的网络爬虫框架。 具有下面几个特点:

设计简单,用户只需要简单定义数据提取规则,让scrapy完成抓取的工作,即可获取数据。 提供丰富的插件扩展机制 开源,100%用python编写(基于twisted框架) 官方文档比较详细

scrapy 主要组件

  • scrapy engine, 控制整个爬虫的运行,请求调度,spider调用,下载调用,信号事件触发
  • spider(蜘蛛), 用来解析页面的类,解析后创建新的请求,或者创建数据结果集合
  • scheduler(调度器), 负责管理请求(来自spider),存入队列,执行时返回给 scrapy引擎
  • Downloader(下载器),抓取页面并返回结果给spider
  • Item pipeline(item管道), 处理网页中抽取的数据结果,进行清洗,校验,存储等操作
  • Downloader middlewares(下载器中间件),下载器与spider之间的勾子,可以对请求和响应的数据进行操作
  • extensions(扩展),在scrapy启动时初始化,提供增强的辅助功能

上面是我主要用到的一些组件,还有 spider middlerwares等没包含在内

scrapy 运行机制

  • 引擎调用蜘蛛获取第一个要抓取的url, 存入调度器
  • 引擎从调度器获取请求url(上面放入的url),
  • 引擎传递请求 -> 下载中间件 -> 下载器
  • 下载器下载页面,响应结果 -> 下载中间件 -> 引擎
  • 引擎把响应结果交给蜘蛛处理
  • 蜘蛛处理响应,创建结果Item和新的请求
  • 结果item交给 item管道处理
  • 新的请求存入调度器,重复上面的操作

转载于:https://my.oschina.net/whitejavadog/blog/775503

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值