1. 微医挂号网专家团队数据----写在前面
今天尝试使用一个新的爬虫库进行数据的爬取,这个库叫做pyspider,国人开发的,当然支持一下。
github地址: https://github.com/binux/pyspider
官方文档地址:http://docs.pyspider.org/en/latest/
安装起来是非常简单的
pip install pyspider
安装之后,启动 在CMD控制台里面敲入命令
pyspider
出现如下界面,代表运行成功,一般情况下,你的电脑如果没有安装 phantomjs 他会先给你安装一下。

接下来打开浏览器,访问地址输入 127.0.0.1:5000, 应该显示如下界面,就可以愉快的进行编码了~
这篇博客介绍了如何使用Python的pyspider库进行微医挂号网专家团队数据的爬取。首先,介绍了pyspider的安装和启动,接着讲解了通过pyspider创建项目并分析网页结构获取AJAX链接。由于网站数据重复问题,爬虫设定爬取84页。最后,展示了爬取数据的存储和pyspider的速率控制,以及处理已爬取数据的文件操作。
订阅专栏 解锁全文
2万+

被折叠的 条评论
为什么被折叠?



