文章目录
scrapy教程
系统:linux
虚拟机版本:Ubuntu 16.04
1、安装
pip install scrapy
其集成了TWISTED异步网络框架
scrapy安装里面一般会自动帮你安装twisted等其他一些库,但是也存在安装出错的情况,可能需要根据报错自行解决未安装库的问题。
2、简介
图源解释:
-
引擎(Scrapy)
用来处理整个系统的数据流, 触发事务(框架核心)
-
调度器(Scheduler)
用来接受引擎发过来的请求, 压入队列中, 并在引擎再次请求的时候返回. 可以想像成一个URL(抓取网页的网址或者说是链接)的优先队列, 由它来决定下一个要抓取的网址是什么, 同时去除重复的网址
-
下载器(Downloader)
用于下载网页内容, 并将网页内容返回给蜘蛛(Scrapy下载器是建立在twisted这个高效的异步模型上的)
-
爬虫(Spiders)
爬虫是主要干活的, 用于从特定的网页中提取自己需要的信息, 即所谓的实体(Item)。用户也可以从中提取出链接,让Scrapy继续抓取下一个页面
-
项目管道(Pipeline)
负责处理爬虫从网页中抽取的实体,主要的功能是持久化实体、验证实体的有效性、清除不需要的信息。当页面被爬虫解析后,将被发送到项目管道,并经过几个特定的次序处理数据。
-
下载器中间件(Downloader Middlewares)
位于Scrapy引擎和下载器之间的框架,主要是处理Scrapy引擎与下载器之间的请求及响应。
-
爬虫中间件(Spider Middlewares)
介于Scrapy引擎和爬虫之间的框架,主要工作是处理蜘蛛的响应输入和请求输出。
-
调度中间件(Scheduler Middewares)
介于Scrapy引擎和调度之间的中间件,从Scrapy引擎发送到调度的请求和响应。
分成五个部分:Spider(蜘蛛)、Engine(引擎)、Scheduler(调度器)、Downloader(下载器)、Pipeline(管道)
概述:
spider | engine | scheduler | downloader | pipeline |
---|---|---|---|---|
start_url或解析数据 | 调度四个部门 | request对象进出队列 | 下载数据 | 存储数据 |
scrapy爬取的流程:
(1) 引擎打开一个网站,找到处理该网站的spider(蜘蛛)并向该spider请求一个要爬取的url
(2) url经过调度器调度进入request队列
(3) 引擎向调度器申请url,url出队列,引擎将url通过下载中间件转发给下载器(即Downloader Middlewares到Downloader)
(4) 下载完毕后下载器生成一个response,再通过下载中间件给引擎,引擎通过spider中间件发给spider处理
(5) spider处理response并生成Item(即爬取到的内容),将Item以及新的Request(新请求)给引擎
(6) 引擎将返回的Item给Item Pipeline,将request给调度器
(7) 从第二步重复直到没有新的request生成
3、项目教学
我们先了解其指令的作用
命令行
全局命令
-
scrapy startproject <projectname>
新建一个工程 -
scrapy view <url>
打开一个网址举例:
scrapy view http://www.baidu.com
-
scrapy runspider <spidername.py>
用来运行创建的爬虫,需要先进入爬虫文件所在的目录,只运行单个爬虫,并不运行整个项目 -
scrapy shell <url>
进入交互界面,一般用来测试定位元素的代码是否写对了response.xpath('')
-
scrapy bench
来测试scrapy是否安装正确 -
scrapy fetch <url>
把网页的源代码下载下来 -
scrapy settings [options]
这个操作用来返回的你的settings设置的信息(基本没啥用,如果有图形界面的话,可以直接打开settings.py看) -
scrapy version [-v]
输出Scrapy版本。配合 -v 运行时,该命令同时输出Python, Twisted以及平台的信息。
项目命令
-
scrapy crawl <spidername>
运行爬虫,启动项目 -
scrapy genspider <spidername> <domain>
创建爬虫,domain(域名)举例:
scrapy genspider douban douban.com
-
scrapy check [-l] <spider>
运行contract检查,检查项目中的错误之处看手册的说明是检查的是每个爬虫的item是否存在或对应正确,不确定理解是否正确
$ scrapy check -l first_spider * parse * parse_item second_spider * parse * parse_item $ scrapy check [FAILED] first_spider:parse_item \>>> 'RetailPricex' field is missing [FAILED] first_spider:parse \>>> Returned 92 requests, expected 0..4
-
scrapy list
列出当前项目中所有可用的爬行器。输出是每行一个爬行器。
创建流程
下面用pycharm打开项目
接下来我们以爬取chin.nju.edu.cn新闻的例子来向大家讲解各个文件的作用