基于python的批量网页爬虫

本文介绍了一位初学者使用Python进行批量网页爬虫的过程,目标是抓取1942年至2019年昆明每月的平均天气信息。通过分析网页结构,定位到所需数据的HTML代码,并编写Python代码实现数据抓取。最终,数据导出为Excel表格,经过简单的处理,得到了整洁的天气历史数据表格。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

在各个网站,较久远的天气信息基本需要付费购买,因此为了花费更少的代价,得到完整的信息,我们经常会对一个网站进行爬虫,这篇文章是我第一次爬虫的心得,因为是第一次进行爬虫,python程序运行时间较长,若有错误,请大佬指出。

爬取网站 https://en.tutiempo.net/climate/ws-567780.html 上昆明每月的平均天气信息。以昆明1942年7月为例,观测网站https://en.tutiempo.net/cli mate/ 07 - 1942 /ws-5 67780.html,可以发现,绿色代表月份,蓝色代表年份,我们需要爬取的信息是1942年到2019年每月的信息。即https://en.tutiempo.net/climate/01-1942/ws-567780.html到https://en.tutiempo.net/climate/12-2019/ws-567780.html每个网页上图1红框内的信息。

图1

F12观测网页结构如图2,找到该红框所对应的代码(html小白可以把鼠标放在代码上,出现的蓝筐即为该代码所构成的网页模块)。

图2

发现红框对应的网页代码如图3所示:

图3

因此构造python字符匹配代码:

'<td class="tc2">(.*)</td><
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值