1. 写在前面
今天要抓取的一个网站叫做微医网站,地址为 https://www.guahao.com ,我们将通过python3爬虫抓取这个网址,然后数据存储到CSV里面,为后面的一些分析类的教程做准备。本篇文章主要使用的库为pyppeteer 和 pyquery
首先找到 医生列表页
https://www.guahao.com/expert/all/全国/all/不限/p5
这个页面显示有 75952 条数据 ,实际测试中,翻页到第38页,数据就加载不出来了,目测后台程序猿没有把数据返回,不过为了学习,我们忍了。

2. 页面URL
https://www.guahao.com/expert/all/全国/all/不限/p1
https://www.guahao.com/expert/all/全国/all/不限/p2
...
https://www.guahao.com/expert/all/全国/all/不限/p38
数据总过38页,量不是很大,咱只需要随便选择一个库抓取就行,这篇博客,我找了一个冷门的库
pyppeteer 在使用过程中,发现资料好少,很尴尬。而且官方的文档写的也不好,有兴趣的可以自行去看看。关于这个库的安装也在下面的网址中。

本文是针对Python爬虫初学者的教程,讲解如何使用Python抓取微医挂号网的医生数据并存储到CSV文件。主要涉及库包括 和 ,在抓取过程中,发现 数据加载存在问题,但依然可以学习爬虫基本操作。文章还介绍了如何使用 解析网页数据,并通过 结果。最后,作者提到该库使用体验一般,鼓励读者进一步探索提高效率的方法。
最低0.47元/天 解锁文章
1253

被折叠的 条评论
为什么被折叠?



