说明
1、PySpider 是一个方便并且功能强大的Python爬虫框架
2、PySpider 依赖于PhantomJS
3、windows平台,PySpider 与64位的Python兼容不太好,需要使用32位Python
4、本文环境:Python3.5(32位)+PhantomJS2.1.1+PySpider 0.4.0
环境配置
- 安装Python(32位)
下载地址:https://www.python.org/downloads/windows/
下载Windows x86 executable installer后按指示安装,并将安装路径加入环境变量 - 列表内容
下载地址:http://phantomjs.org/download.html
下载后解压,并将bin目录放入环境变量(命令行phantomjs -v测试) - 安装PySpider
使用pip安装:命令行输入 pip install pyspider
验证安装结果:
安装完成后,命令行输入 pyspider all,然后浏览器访问http://localhost:5000
如果正常出现PySpider页面,则说明安装成功
开始抓取
获取抓取链接
在百度图片http://image.baidu.com/里随便输入搜索,将搜索结果页地址作为我们抓取的链接。我这里输入“猫咪”,然后获取到的链接是https://image.baidu.com/search/index?tn=baiduimage&ipn=r&ct=201326592&cl=2&lm=-1&st=-1&sf=1&fmq=&pv=&ic=0&nc=1&z=&se=1&showtab=0&fb=0&width=&height=&face=0&istype=2&ie=utf-8&fm=index&pos=history&word=%E7%8C%AB%E5%92%AA新建PySpider项目
命令行输入 pyspider all,然后浏览器访问http://localhost:5000
点击右下角的“Create”按钮
输入项目名称和我们第一步获取到的URL
然后点击“Create”即可完成创建,并打开项目的编辑界面。具体使用方式请自行百度