python实战笔记之(12):Scrapy框架安装

本文详细介绍在Windows环境下安装Scrapy框架的过程,包括安装wheel、lxml、PyOpenssl、Twisted、Pywin32等依赖库,以及在Anaconda平台下的简单安装步骤。最后,通过创建一个示例项目来测试Scrapy框架是否安装成功。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一、什么是Scrapy

Scrapy是Python开发的一个快速、高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试。

Scrapy吸引人的地方在于它是一个框架,任何人都可以根据需求方便的修改。它也提供了多种类型爬虫的基类,如BaseSpider、sitemap爬虫等,最新版本又提供了web2.0爬虫的支持。

二、直接安装

下面介绍在Windows下安装Scrapy的过程。

在Windows下安装Scrapy框架是非常麻烦的,需要安装许多依赖库,万一有一个依赖库没有安装好就会导致安装失败。安装过程可以分为以下几步:

1.安装wheel

pip install wheel

第一步需要安装wheel,安装好wheel库之后,你就可以安装一些wheel文件,通过这些wheel文件完成其他库的安装。因为我已经安装过了,所以会显示以下内容。

2. 安装lxml

第二步需要安装lxml,通过这个链接http://www.lfd.uci.edu/~gohlke/pythonlibs/#lxml,可以找到很多不同版本的wheel文件,由于我使用的是python3.6,所以就下载了下面这个文件。

直接点击就可以下载,下载完成后找到该文件,右键-->属性-->安全,把对象名称,也就是文件路径copy下来,然后在CMD窗口输入“pip install copy的路径”就可以了。

3.PyOpenssl

第三步需要安装PyOpenssl,通过链接https://pypi.python.org/pypi/pyOpenSSL#downloads,进入pypi网站,点击“Download files”,然后点击下载wheel文件即可。

接着,同样把文件路径(包括文件名称)复制下来,在CMD输入“pip install copy的路径”进行安装。

4.安装Twisted

第四步需要安装Twisted框架,这是一个异步框架,Scrapy的核心就是基于Twisted框架。同样地,访问http://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted,下载对应版本的wheel文件。

下面依然是复制文件路径,并用pip进行安装。

5.安装Pywin32

接下来需要安装Pywin32文件,它是python和win32在运行过程中兼容的一个库。访问https://sourceforge.net/projects/pywin32/files/pywin32/Build%20220/,打开之后会看到一个下载列表,这里点击下载3.6版本。

下载完成会看到一个exe文件,运行之,依次点击下一步,然后点击完成。

 

6.安装Scrapy

安装完依赖库之后,最后一步安装Scrapy框架就Ok了。

pip install scrapy

7.测试Scrapy

最后对安装完的Scrapy框架进行测试,比如新建一个“hello”项目:输入“scrapy startproject hello”:

根据提示依次输入:

cd hello

scrapy genspider baidu www.baidu.com

然后它给我们创建了一个spider:

接下来我们输入“scrapy crawl baidu”,运行一下这个spider,如果运行过程没有出错的话,就说明Scrapy框架安装没问题。

三、Anaconda平台下的安装

Anaconda是一个科学计算环境,它里面给我们提供了许多库。如果装有Anaconda,就可以用“conda”命令安装Scrapy。

用conda安装是非常简单的,只需要输入“conda install scrapy”就可以了,出现提示后输入“y”。

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值