爬虫框架Scrapy 之(一) --- scrapy整体认识

最新推荐文章于 2025-12-01 17:26:42 发布

转载最新推荐文章于 2025-12-01 17:26:42 发布 · 143 阅读

CC 4.0 BY-SA版权

原文链接：http://www.cnblogs.com/TMMM/p/10774254.html

文章标签：

Scrapy是一款基于Twisted的高效爬虫框架，适用于数据挖掘和信息处理。它利用事件驱动和异步处理提高效率，核心组件包括引擎、下载器、爬虫、调度器和管道。本文介绍其安装、配置及基本使用流程。

scrapy是基于Twisted的一个第三方爬虫框架，许多功能已经被封装好，方便提取结构性的数据。其可以应用在数据挖掘，信息处理等方面。提供了许多的爬虫的基类，可更简便使用爬虫。

Twisted有些特殊的地方是它是事件驱动的，并且比较适合异步的代码。对于会阻塞线程的操作包含访问文件、数据库或者Web、产生新的进程并需要处理新进程的输出(如运行shell命令)、执行系统层次操作的代码(如等待系统队列),Twisted提供了允许执行上面的操作但不会阻塞代码执行的方法。

Scrapy 的组成部分： 1. 引擎、2.下载器、3. 爬虫、4. 调度器、5. 管道（item和pipeline）

以上五部分只需要关注爬虫和管道即可

Mac安装步骤

wid安装步骤

在线安装和Mac相同, pip install twisted
离线安装需要在网站http://www.lfd.uci.edu/~gohlke/pythonlibs#twisted下载响应的版本，然后想下载好的文件拖到 pip install 后面
安装其框架和Mac相同
安装 pip install pywin32

工程创建：

先在终端： cd到存放的目录下
创建项目： scrapy startproject 工程项目名
然后再在： pycharm中打开此项目(空工程)
创建爬虫： scrapy genspider 爬虫名该网站域名 [guoyapeng@localhost ~/pyword/spider05/MyScrapy] $scrapy genspider budejie budejie.com
运行爬虫： scrapy crawl 爬虫名 [-o xx.json/xml/csv]。 scrapy crawl qiubai -o budejie.json

工程配置：