【Scrapy】scrapy 开发（1）-- 介绍

weixin_33980459

于 2016-10-25 15:42:00 发布

阅读量117

点赞数

CC 4.0 BY-SA版权

文章标签： python 爬虫

原文链接：https://my.oschina.net/whitejavadog/blog/775503

本文介绍了Scrapy爬虫框架的主要特点与组件，包括引擎、蜘蛛、调度器、下载器等，并详细阐述了Scrapy的工作流程及各组件的作用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

2019独角兽企业重金招聘Python工程师标准>>>

scrapy 简介

scrapy 是使用python语言开发的网络爬虫框架。具有下面几个特点：

设计简单，用户只需要简单定义数据提取规则，让scrapy完成抓取的工作，即可获取数据。提供丰富的插件扩展机制开源，100%用python编写（基于twisted框架）官方文档比较详细

scrapy 主要组件

scrapy engine，控制整个爬虫的运行，请求调度，spider调用，下载调用，信号事件触发
spider（蜘蛛）, 用来解析页面的类，解析后创建新的请求，或者创建数据结果集合
scheduler（调度器），负责管理请求（来自spider），存入队列，执行时返回给 scrapy引擎
Downloader（下载器），抓取页面并返回结果给spider
Item pipeline（item管道），处理网页中抽取的数据结果，进行清洗，校验，存储等操作
Downloader middlewares（下载器中间件），下载器与spider之间的勾子，可以对请求和响应的数据进行操作
extensions（扩展），在scrapy启动时初始化，提供增强的辅助功能

上面是我主要用到的一些组件，还有 spider middlerwares等没包含在内

scrapy 运行机制

引擎调用蜘蛛获取第一个要抓取的url，存入调度器
引擎从调度器获取请求url（上面放入的url），
引擎传递请求 -> 下载中间件 -> 下载器
下载器下载页面，响应结果 -> 下载中间件 -> 引擎
引擎把响应结果交给蜘蛛处理
蜘蛛处理响应，创建结果Item和新的请求
结果item交给 item管道处理
新的请求存入调度器，重复上面的操作

转载于:https://my.oschina.net/whitejavadog/blog/775503

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。