scrapy教程基础篇

scrapy教程

系统:linux
虚拟机版本:Ubuntu 16.04

1、安装

 pip install scrapy

其集成了TWISTED异步网络框架

scrapy安装里面一般会自动帮你安装twisted等其他一些库,但是也存在安装出错的情况,可能需要根据报错自行解决未安装库的问题。

在这里插入图片描述

2、简介

在这里插入图片描述

图源解释:

  • 引擎(Scrapy)

    用来处理整个系统的数据流, 触发事务(框架核心)

  • 调度器(Scheduler)

    用来接受引擎发过来的请求, 压入队列中, 并在引擎再次请求的时候返回. 可以想像成一个URL(抓取网页的网址或者说是链接)的优先队列, 由它来决定下一个要抓取的网址是什么, 同时去除重复的网址

  • 下载器(Downloader)

    用于下载网页内容, 并将网页内容返回给蜘蛛(Scrapy下载器是建立在twisted这个高效的异步模型上的)

  • 爬虫(Spiders)

    爬虫是主要干活的, 用于从特定的网页中提取自己需要的信息, 即所谓的实体(Item)。用户也可以从中提取出链接,让Scrapy继续抓取下一个页面

  • 项目管道(Pipeline)

    负责处理爬虫从网页中抽取的实体,主要的功能是持久化实体、验证实体的有效性、清除不需要的信息。当页面被爬虫解析后,将被发送到项目管道,并经过几个特定的次序处理数据。

  • 下载器中间件(Downloader Middlewares)

    位于Scrapy引擎和下载器之间的框架,主要是处理Scrapy引擎与下载器之间的请求及响应。

  • 爬虫中间件(Spider Middlewares)

    介于Scrapy引擎和爬虫之间的框架,主要工作是处理蜘蛛的响应输入和请求输出。

  • 调度中间件(Scheduler Middewares)

    介于Scrapy引擎和调度之间的中间件,从Scrapy引擎发送到调度的请求和响应。


分成五个部分:Spider(蜘蛛)、Engine(引擎)、Scheduler(调度器)、Downloader(下载器)、Pipeline(管道)

概述:

spider engine scheduler downloader pipeline
start_url或解析数据 调度四个部门 request对象进出队列 下载数据 存储数据

scrapy爬取的流程:

(1) 引擎打开一个网站,找到处理该网站的spider(蜘蛛)并向该spider请求一个要爬取的url

(2) url经过调度器调度进入request队列

(3) 引擎向调度器申请url,url出队列,引擎将url通过下载中间件转发给下载器(即Downloader Middlewares到Downloader)

(4) 下载完毕后下载器生成一个response,再通过下载中间件给引擎,引擎通过spider中间件发给spider处理

(5) spider处理response并生成Item(即爬取到的内容),将Item以及新的Request(新请求)给引擎

(6) 引擎将返回的Item给Item Pipeline,将request给调度器

(7) 从第二步重复直到没有新的request生成

3、项目教学

我们先了解其指令的作用

在这里插入图片描述

命令行

全局命令
  1. scrapy startproject <projectname>
    新建一个工程

  2. scrapy view <url>
    打开一个网址

    举例:scrapy view http://www.baidu.com

  3. scrapy runspider <spidername.py>
    用来运行创建的爬虫,需要先进入爬虫文件所在的目录,只运行单个爬虫,并不运行整个项目

  4. scrapy shell <url>
    进入交互界面,一般用来测试定位元素的代码是否写对了

    response.xpath('')

  5. scrapy bench
    来测试scrapy是否安装正确

  6. scrapy fetch <url>
    把网页的源代码下载下来

  7. scrapy settings [options]
    这个操作用来返回的你的settings设置的信息(基本没啥用,如果有图形界面的话,可以直接打开settings.py看)

    settings参数如何设置

  8. scrapy version [-v]
    输出Scrapy版本。配合 -v 运行时,该命令同时输出Python, Twisted以及平台的信息。

项目命令
  1. scrapy crawl <spidername>
    运行爬虫,启动项目

  2. scrapy genspider <spidername> <domain>
    创建爬虫,domain(域名)

    举例:scrapy genspider douban douban.com

  3. scrapy check [-l] <spider>
    运行contract检查,检查项目中的错误之处

    看手册的说明是检查的是每个爬虫的item是否存在或对应正确,不确定理解是否正确

    $ scrapy check -l
    first_spider
      * parse
      * parse_item
    second_spider
      * parse
      * parse_item
    $ scrapy check
    [FAILED] first_spider:parse_item
    \>>> 'RetailPricex' field is missing
    [FAILED] first_spider:parse
    \>>> Returned 92 requests, expected 0..4
    
  4. scrapy list
    列出当前项目中所有可用的爬行器。输出是每行一个爬行器。

更多命令

创建流程

在这里插入图片描述在这里插入图片描述
在这里插入图片描述
下面用pycharm打开项目

在这里插入图片描述
接下来我们以爬取chin.nju.edu.cn新闻的例子来向大家讲解各个文件的作用

实战讲解

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值