PySpider爬虫框架折腾体验
@(进阶)[PySpider,PySpider使用,PySpider体验]
最近在看爬虫类的Python文章,了解到了PySpider这个强大的爬虫框架,就想也体验一番,这次折腾的过程可以说极其曲折、峰回路转,感觉还是有必要写下来和大家分享,同时也表示对我在折腾过程中看到的精彩文章表示感谢。过程中我了解到了PySpider爬虫框架是位牛叉的国人开发的(好吧好多人也不太关心是谁开发的只管用),这个爬虫框架的用法网上也很多,我也是边看文章边折腾的。为什么说是折腾呢,因为还是那句话“开源项目无不折腾”,废话不多说开始正题。
首先还是要说点不是废话的话,要不然会让你有N多个为什么的,PySpider框架支持JS渲染抓取,支持PyQuery选择HTML,下面是它的一个简介:
PySpider 的主要特性
- Python 脚本控制,可以用任何你喜欢的html解析包(内置 PyQuery)
- WEB 界面编写调试脚本,起停脚本,监控执行状态,查看活动历史,获取结果产出
- 支持 MySQL, MongoDB, SQLite
- 支持抓取 JavaScript 的页面
- 组件可替换,支持单机/分布式部署,支持 Docker 部署
- 强大的调度控制
PySpider作者博客:http://blog.binux.me/
一看这些支持的功能,那就知道是用了不少基础库的。
我的系统环境:Win7,Python2.7(友情提示建议把文章看完了再动手操作)。
首先第一部安装PySpider:
我是一直都用的easy_install来安装的,安装命令很简单:
easy_install pyspider<