基于python的批量网页爬虫

最新推荐文章于 2023-12-04 11:29:44 发布

原创

最新推荐文章于 2023-12-04 11:29:44 发布 · 642 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

本文介绍了一位初学者使用Python进行批量网页爬虫的过程，目标是抓取1942年至2019年昆明每月的平均天气信息。通过分析网页结构，定位到所需数据的HTML代码，并编写Python代码实现数据抓取。最终，数据导出为Excel表格，经过简单的处理，得到了整洁的天气历史数据表格。

在各个网站，较久远的天气信息基本需要付费购买，因此为了花费更少的代价，得到完整的信息，我们经常会对一个网站进行爬虫，这篇文章是我第一次爬虫的心得，因为是第一次进行爬虫，python程序运行时间较长，若有错误，请大佬指出。

爬取网站 https://en.tutiempo.net/climate/ws-567780.html 上昆明每月的平均天气信息。以昆明1942年7月为例，观测网站https://en.tutiempo.net/cli mate/ 07 - 1942 /ws-5 67780.html，可以发现，绿色代表月份，蓝色代表年份，我们需要爬取的信息是1942年到2019年每月的信息。即https://en.tutiempo.net/climate/01-1942/ws-567780.html到https://en.tutiempo.net/climate/12-2019/ws-567780.html每个网页上图1红框内的信息。

图1

F12观测网页结构如图2，找到该红框所对应的代码（html小白可以把鼠标放在代码上，出现的蓝筐即为该代码所构成的网页模块）。

图2

发现红框对应的网页代码如图3所示：

图3

因此构造python字符匹配代码：

'<td class="tc2">(.*)</td><

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。