爬虫框架Scrapy 之(一) --- scrapy整体认识

Scrapy是一款基于Twisted的高效爬虫框架,适用于数据挖掘和信息处理。它利用事件驱动和异步处理提高效率,核心组件包括引擎、下载器、爬虫、调度器和管道。本文介绍其安装、配置及基本使用流程。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Scrapy框架简介

scrapy是基于Twisted的一个第三方爬虫框架,许多功能已经被封装好,方便提取结构性的数据。其可以应用在数据挖掘,信息处理等方面。提供了许多的爬虫的基类,可更简便使用爬虫。

Twisted有些特殊的地方是它是事件驱动的,并且比较适合异步的代码。对于会阻塞线程的操作包含访问文件、数据库或者Web、产生新的进程并需要处理新进程的输出(如运行shell命令)、执行系统层次操作的代码(如等待系统队列),Twisted提供了允许执行上面的操作但不会阻塞代码执行的方法。

Scrapy 的组成部分: 1. 引擎、2.下载器、3. 爬虫、4. 调度器、5. 管道(item和pipeline)

以上五部分 只需要关注 爬虫管道 即可

  1. spiders:蜘蛛或爬虫,分析网页的地方,主要的代码写在这里
  2. 管道:    包括item和pipeline,用于处理数据
  3. 引擎:    用来处理整个系统的数据流,触发各种事务(框架的核心)
  4. 下载器: 用于下载网页内容,并且返回给蜘蛛(下载器基于Twisted的高效异步模型)
  5. 调度器: 用来接收引擎发过来的请求,压入队列中等处理任务

Scrapy框架安装

Mac安装步骤

  1. 安装依赖库Twisted。 打开终端  pip  install  twisted
  2. 安装其框架Scrapy。 pip install scrapy

wid安装步骤

  1. 在线安装和Mac相同, pip  install   twisted
  2. 离线安装 需要在网站http://www.lfd.uci.edu/~gohlke/pythonlibs#twisted下载响应的版本,然后想下载好的文件拖到 pip install 后面
  3. 安装其框架和Mac相同
  4. 安装 pip   install   pywin32

Scrapy工程

工程创建

  1. 先在终端: cd到存放的目录下
  2. 创建项目: scrapy startproject 工程项目名
  3. 然后再在: pycharm中打开此项目(空工程)
  4. 创建爬虫: scrapy genspider 爬虫名 该网站域名 [guoyapeng@localhost ~/pyword/spider05/MyScrapy] $scrapy genspider budejie budejie.com
  5. 运行爬虫: scrapy crawl 爬虫名 [-o xx.json/xml/csv]。 scrapy crawl qiubai -o budejie.json

工程配置: 

  1. 在spiders里面解析数据 (解析)。spiders目录下budejie.py为主要的爬虫代码,包括了对页面的请求以及页面的处理
  2. 根据需求编写item (爬取)。 items.py里存放的是要爬取数据的字段信息
  3. 在管道中处理解析完的数据 (存储)。pipeline主要是对spiders中爬虫的返回的数据的处理,可以写入到数据库,也可以写入到文件。

整体思路:

 


 

转载于:https://www.cnblogs.com/TMMM/p/10774254.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值