这次要爬的站点是这个:http://www.weather.com.cn/forecast/
要求是把你所在城市过去一年的历史数据爬出来。
分析网站
首先来到目标数据的网页 http://www.weather.com.cn/weather40d/101280701.shtml
中国天气网
中国天气网
我们可以看到,我们需要的天气数据都是放在图表上的,在切换月份的时候,发现只有部分页面刷新了,就是天气数据的那块,而URL没有变化。
这是因为网页前端使用了JS异步加载的技术,更新时不用加载整个页面,从而提升了网页的加载速度。
对于这种非静态页面,我们在请求数据时,就不能简单的通过替换URL来请求不同的页面。
着眼点要放在Network,观察整个请求的过程,从中寻找突破口。
老规矩按下F12 > network,切换下页面,发现多了一些东西,这就是切换月份,浏览器发出的请求,可以很清楚的看到请求头和请求参数。

本文介绍了如何使用Python爬取中国天气网的历史天气数据。通过分析网络请求,发现数据以JSON格式返回,利用Python的requests和json库轻松获取和解析数据,并存储到MongoDB中。整个过程涉及请求头的设置、URL参数解析和数据提取。
最低0.47元/天 解锁文章
4745

被折叠的 条评论
为什么被折叠?



