Scrapy的基础概念
scrapy 是一个为了爬取网站数据,提取结构性数据而编写的应用框架,我们只需要实现少量代码,就能够快速的抓取到数据内容。Scrapy 使用了 Twisted['twɪstɪd]
(其主要对手是Tornado)异步网络框架来处理网络通讯,可以加快我们的下载速度,不用自己去实现异步框架,并且包含了各种中间件接口,可以灵活的完成各种需求。
Scrapy安装介绍
Scrapy的安装有多种方式,它支持Python2.7版本及以上或Python3.3版本及以上。下面说明Python3环境下的安装过程。
Scrapy依赖的库比较多,至少需要依赖的库有Twisted 14.0,lxml 3.4,pyOpenSSL .014。而在不同平台环境又各不相同,所以在安装之前最好确保把一些基本库安装好,尤其是Windows。
Anaconda
这种方法是比较简单的安装Scrapy的方法(尤其是对Windows来说),你可以使用该方法安装,也可以选用下文的专用平台安装方法。
Anaconda是包含了常用的数据科学库的Python发行版本,如果没有安装,可以点击<Anaconda的安装方法>参考教程安装软件。
如果已经安装,那么可以轻松地通过conda命令安装Scrapy。
安装命令如下:
conda install Scrapy
Windows
- 安装lxml
最好的安装方式是通过wheel文件来安装,http://ww