什么是Scrapy
Scrapy 是一套基于Twisted的异步处理框架,是纯python实现的爬虫框架。
Scrapy 是一个为了爬取网站数据,提取结构性数据而编写的应用框架。 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中。
其最初是为了网络抓取所设计的,也可以应用在获取API所返回的数据或者通用的网络爬虫。
用户只需要定制开发几个模块就可以轻松的实现一个爬虫,用来抓取网页内容或者各种图片。
Scrapy组件说明
1.Scrapy Engine(Scrapy引擎)
Scrapy Engine是用来控制整个系统的数据处理流程,并进行事务处理的触发。
2.Scheduler(调度)
Scheduler从Scrapy Engine接受请求并排序列入队列,并在Scrapy Engine发出请求后返还给他们。
3.Downloader(下载器)
Downloader的主要职责是抓取网页并将网页内容返还给Spiders。
4.Spiders(蜘蛛)
Spider是有Scrapy用户自己定义用来解析网页并抓取制定URL返回的内容的类,每个spider都能处理一个域名或一组域名。
换句话说就是用来定义特定网站的抓取和解析规则。
Spider的整个抓取流程(周期)是这样的:
首先获取第一个URL的初始请求,当请求返回后调取一个回调函数。第一个请求是通过调用start_requests()方法。该方法默认从start_urls中的Url中生成请求,并执行解析来调用回调函数。
在回调函数中,你可以解析网页响应并返回项目对象和请求对象或两者的迭代。这些请求也将包含一个回调,然后被Scrapy下载,然后有指定的回调处理。
在回调函数中,你解析网站的内容,同程使用的是Xpath选择器(但是你也可以使用BeautifuSoup, lxml或其他任何你喜欢的程序),并生成解析的数据项item。
最后,从spider返回的item通常会进驻到项目管道。
5.Item Pipeline(项目管道)
项目管道的主要责任是负责处理有spider从网页中抽取的项目,他的主要任务是清洗、验证和存储数据。当页面被spider解析后,将被发送到项目管道,并经过几个特定的次序处理数据。每个项目管道的组件都是有一个简单的方法组成的Python类。他们获取了项目并执行他们的方法,同时他们还需要确定的是是否需要在项目管道中继续执行下一步或是直接丢弃掉不处理。
项目管道通常执行的过程有:
- 清洗spider数据
- 验证解析到的数据(检查项目是否包含必要的字段)
- 检查是否是重复数据(如果重复就删除)
- 将解析到的数据存储到数据库中
6.Downloader middlewares(下载器中间件)
下载中间件是位于Scrapy引擎和下载器之间的钩子框架,主要是处理Scrapy引擎与下载器之间的请求及响应。
它提供了一个自定义的代码的方式来拓展 Scrapy的功能。
下载中间器是一个处理请求和响应的钩子框架。他是轻量级的,对Scrapy尽享全局控制的底层的系统。
7.Spider middlewares(spider中间件)
Spider中间件是介于Scrapy引擎和Spider之间的钩子框架,主要工作是处理spider的响应输入和请求输出。
它提供一个自定义代码的方式来拓展Scrapy的功能。
spider中间件是一个挂接到Scrapy的spider处理机制的框架,你可以插入自定义的代码来处理发送给spider的请求和返回spider获取的响应内容和项目。
8.Scheduler middlewares(调度中间件)
调度中间件是介于Scrapy引擎和调度之间的中间件,主要工作是处从Scrapy引擎发送到调度的请求和响应。
它提供了一个自定义的代码来拓展Scrapy的功能。
scrapy爬虫架构介绍
下图显示了Scrapy的大体架构,其中包含了scheduler、item、pipeline、downloader、spider以及engine这几个组件模块,而其中的绿色箭头则说明了整套系统的数据处理流程。
数据处理流程
Scrapy的整个数据处理流程由Scrapy引擎进行控制,其主要的运行方式为:
1.引擎从Spider获取URL给调度器
1.(Engine->Spiders)引擎打开一个域名时,spider处理这个域名,并让spider获取第一个爬取的URL(s)。
2.(Engine->Spiders)引擎从spider那获取第一个需要爬取的URL,然后在调度器(Scheduler)以Request调度。
2.引擎从调度器获取URL给下载器
3.(Engine->Scheduler)引擎从调度那获取接下来进行爬取的URL。
4.(Engine->Downloader)调度器(Scheduler)将下一个爬取的URL返回给引擎,引擎将URL通过下载中间件(请求(request)方向)转发给下载器(Downloader)。
3.引擎从下载器获取Response给Spider
5.(Downloader->Engine)一旦页面下载完毕,下载器生成一个该页面的Response,并将其通过下载中间件(返回(response)方向)发送给引擎。
6.(Engine->Spiders)引擎从下载器(Downloader)中接收到Response并通过Spider中间件(输入方向)发送给Spider处理。
4.Spider处理Response成Item数据项
7.(Spider->Engine) Spider处理Response并返回爬取到的Item条目及(跟进的)新的Request给引擎。
5.引擎将Spider返回的Item传给Pipeline
8.(Engine->Pipeline)引擎将(Spider返回的)爬取到的Item给Item Pipeline,将(Spider返回的)Request给调度器。
6.重复
9.(从第2步)重复直到调度器(Scheduler)中没有更多地request,引擎关闭该网站。