【优秀python数据分析案例】基于python的中国天气网数据采集与可视化分析的设计与实现

最新推荐文章于 2025-05-15 15:32:29 发布

python编程狮

最新推荐文章于 2025-05-15 15:32:29 发布

阅读量1.6k

点赞数 19

CC 4.0 BY-SA版权

文章标签： python 爬虫数据分析数据可视化 matplotlib 天气数据

本文链接：https://blog.youkuaiyun.com/weixin_49081159/article/details/140872689

概要

天气预报我们每天都会关注，我们可以根据未来的天气增减衣物、安排出行，每天的气温、风速风向、相对湿度、空气质量等成为关注的焦点。本次使用python中requests和BeautifulSoup库对中国天气网当天和未来14天的数据进行爬取，保存为csv文件，之后用matplotlib、numpy、pandas对数据进行可视化处理和分析，得到温湿度度变化曲线、空气质量图、风向雷达图等结果，为获得未来天气信息提供了有效方法。

1、数据获取

1.1请求网站链接

首先查看中国天气网的网址：http://www.weather.com.cn/weather/101280701.shtml这里就访问本地的天气网址，如果想爬取不同的地区只需修改最后的101280701地区编号即可，前面的weather代表是7天的网页，weather1d代表当天，weather15d代表未来14天。这里就主要访问7天和14天的中国天气网。采用requests.get()方法，请求网页，如果成功访问，则得到的是网页的所有字符串文本。这就是请求过程。

def getHTMLtext(url):
"""请求获得网页内容"""
try:
  r = requests.get(url, timeout = 30)
  r.raise_for_status()
  r.encoding = r.apparent_encoding
  print("成功访问")
  return r.text
except:
  print("访问错误")
  return" "

提取有用信息

这里采用BeautifulSoup库对刚刚获取的字符串进行数据提取，首先对网页进行检查，找到需要获取数据的标签：

可以发现7天的数据信息在div标签中并且id=“7d”，并且日期、天气、温度、风级等信息都在ul和li标签中，所以我们可以使用BeautifulSoup对获取的网页文本进行查找div标签id=“7d”，找出他包含的所有的ul和li标签，之后提取标签中相应的数据值，保存到对应列表中。

这里要注意一个细节就是有时日期没有最高气温，对于没有数据的情况要进行判断和处理。另外对于一些数据保存的格式也要提前进行处理，比如温度后面的摄氏度符号，日期数字的提取，和风级文字的提取，这需要用到字符查找及字符串切片处理。

def get_content(html):
"""处理得到有用信息保存数据文件"""
final = []          # 初始化一个列表保存数据
bs = BeautifulSoup(html, "html.parser")  # 创建BeautifulSoup对象
body = bs.body
data = body.find('div', { 'id': '7d'})    # 找到div标签且id = 7d