一介绍
Scrapy框架在windows或者是Linux环境下的安装和使用并没有太大的差别,相对windows而言,Linux可能更为方便简单一些,而且网上的资料也更为丰富完善。所以笔者在此处,记录一下windows环境搭建的完整过程,以作为其他资料的补充。
此处使用的具体环境是,在Vmware中,安装win7,安装python3,安装Scrapy1.5,搭建环境变量,以及Scrapy在Pycharm中的使用
Pycharm仅作为文本编辑器使用,当然你可以不使用Pycharm,只使用记事本也足够了,使用Pycharm的目的在于,排除制表符的烦恼,解决自动补全的问题,代码一目了然,降低排错难度。另外,当你不使用Scrapy框架,创建其他python项目时,Pycharm可以充当完整的IDE。
二Windows7下的python3
记录VMware中win7和vmtools的安装并不是本文的意图,所以笔者默认虚拟机中win7已经是可以正常使用的,然后前往python的官网,下载最新的python版本,截至本文的日期(python3.7),笔者不推荐在使用python2的版本,所以请下载对应你系统的python3。
Windows下的python安装非常简单,只需要运行下载的exe文件。
此处笔者选择默认的安装路径,此路径可以修改,但请务必记住,可以安装完成之后自行去修改系统变量,也可以直接勾选Add Python3.7 to PATH,我们比较一下安装前后的环境变量变化。
安装前:
安装后:
通过比较可以看出,环境变量已经添加完成。
我们测试一下python和pip。
问题在于,如果你安装的是较低版本的python3,如python3.6.5,那么你的pip版本较低,不太方便安装Scrapy框架,所以建议更新最新的pip,命令如下:
python -m pip install --upgrade pip
可以看到版本发生了变化
三安装Scrapy框架
Python的环境已经可以使用了,此时,可以安装Scrapy框架。
其实安装Scrapy只需要一行命令,直接执行此命令时,一般会抛出一些问题。
执行命令:
Pip install scrapy
抛出如下错误:
通过打印出来的信息可以看到,在创建Twisted时出了问题(其实本质错误是缺少MVC14.0,如果直接去安装MVC14.0,会装上一整个vs,全然没有必要)。于是我们可以手动去安装Twisted。
访问网站:https://www.lfd.uci.edu/~gohlke/pythonlibs/
找到适合你系统环境的安装包,笔者python3.7(假设你是python3.6.5,那么就选36),又是32位系统,所以选择下列包。
把下载的包拷贝到桌面上,执行命令:
打开桌面
cd Desktop
安装
pip install 包名称
安装完成之后,重新执行命令:pip install scrapy
此时出现新的错误(这两个错误出现的顺序可能会与本文不一样),安装lxml出问题。
同理,下载安装lxml包。
安装完成之后,再次执行pip install scrapy,一般情况下就可以安装成功了,有时还存在缺失模块的错误,比如:ModuleNotFoundError: No module named 'win32api'
可以直接pip install pypiwin32,装上相应模块即可。
上述几个错误解决之后,一般可以成功装上Scrapy框架,那么现在我们可以在命令行使用scrapy命令吗?你可能会去试一试,比如:scrapy –V。但我建议你仍旧打开环境变量。
将PATH这一行复制出来,粘贴到文本文件可以看到:
C:\Users\AC\AppData\Local\Programs\Python\Python37-32\Scripts\;
C:\Users\AC\AppData\Local\Programs\Python\Python37-32\
分号之前的这个路径C:\Users\AC\AppData\Local\Programs\Python\Python37-32\Scripts\;
可以去访问一下下,在该路径下看到的我们的Scrapy.exe,以及我们执行过的pip命令,可以确定,我们的Scrapy真正的装到了python3的环境下,而且环境变量已经配置好,我们可以直接在命令行调用。
在终端命令行执行scrapy –V。
到了这一步,实际上Scrapy框架已经完全搭建完成,你可以执行scrapy startproject demo01创建你的第一个项目(项目名为demo01),然后用记事本去写py脚本,当然这是在之后的博客中,要详细记录的东西。
本文要说的是,直接用记事本可能会影响你的开发效率,眼前有更好的工具。
四Pycharm
关于Pychram的安装破解,这与本文无关,而且十分简单,你也可以在网上找到大量的资料。此处只记录,如何使用Pycharm,辅助开发基于Scrapy框架的爬虫。
PS:从官网下载的Pycharm安装完成之后,如果你在启动时会报出错误。此时你需要配置JDK环境,去Oracle官网下载适合你系统的JDK,安装配置环境变量即可。
在终端执行命令:
cd Desktop
scrapy startproject ScrapyBoKe
- 可以看到桌面上生成了一个名为ScrapyBoKe的项目文件夹,打开pycharm,新建项目,并且对项目做如下配置:项目路径指向刚刚创建的文件夹,勾选导入全局包。
- 当创建一个新的py文件时,pycharm提示没有解释器
- 单击File->Settings,需要添加一个新的解释器
- 新建一个文件位置C:\Users\AC\Environment\,用于存储虚拟的Python环境,每一个项目可以对应一个虚拟环境,当前项目的虚拟环境在该路径下的ScrapyBoKe文件夹里。确定即可。
- 此时在项目视图中,就有了相应的环境,可以正常使用了