近期疫情反反复复,着实让人不安心,用python爬取疫情数据

[课题]:

Python项目实战-疫情数据采集, 并做可视化展示

[知识点]:

1. 爬虫基本流程
2. json
3. requests 爬虫当中 发送网络请求
4. pandas 表格处理 / 保存数据
4. pyecharts 可视化

[开发环境]:

python 3.8 比较稳定版本 解释器发行版 anaconda --> jupyter notebook 里面写数据分析代码 专业性
pycharm 专业代码编辑器 按照年份与月份划分版本的

爬虫(采集网络当中数据 文本 图片 视频 音频)流程:

一. 明确需求
    我们要爬取的内容是什么?
    分析数据从哪里来的 https://news.qq.com/zt2020/page/feiyan.htm#/
    用开发者工具 进行抓包(数据包)分析
二. 代码流程
    1. 发送请求 访问网站 https://view.inews.qq.com/g2/getOnsInfo?name=disease_h5&_=1638361138568
    2. 获取数据
    3. 解析数据
        xpath css re json bs4(过时了)
        json 在python语言当中 字典类型数据 {键1:值1, 键2:值2, 键3:值3}
    4. 保存数据

导入模块

import requests      # 发送网络请求模块
import json
import pprint        # 格式化输出模块
import pandas as pd  # 数据分析当中一个非常重要的模块

1. 发送请求

url = 'https://view.inews.qq.com/g2/getOnsInfo?name=disease_h5&_=1638361138568'
response = requests.get(url, verify=False)
# <Response [200]>: 响应体Response  200: 状态码 发送请求成功

2. 获取数据

json_data = response.json()['data']

3. 解析数据

# json_data 什么类型?
json_data = json.loads(json_data)
china_data = json_data['areaTree'][0]['children'] # 列表
data_set = []
for i in china_data:
    data_dict = {}
    # 地区名称
    data_dict['province'] = i['name']
    # 新增确认
    data_dict['nowConfirm'] = i['total']['nowConfirm']
    # 死亡人数
    data_dict['dead'] = i['total']['dead']
    # 治愈人数
    data_dict['heal'] = i['total']['heal']
    # 死亡率
    data_dict['deadRate'] = i['total']['deadRate']
    # 治愈率
    data_dict['healRate'] = i['total']['healRate']
    data_set.append(data_dict)

df = pd.DataFrame(data_set)
df.to_csv('data.csv')

一 、数据采集

#%% md


#%%

# 导入工具
import time   # 时间模块
import json   # json包
import requests    # 网络请求库   第三方   pip
import pandas as pd  # 数据处理   第三库  pip

#%% md

## 1. 目标网址
https://view.inews.qq.com/g2/getOnsInfo?name=disease_h5&callback=jQuery35106097998260028255_1617971061475&_=1617971061476

#%%

url = 'https://view.inews.qq.com/g2/getOnsInfo?name=disease_h5&_=%d'%int(time.time()*1000)

#%% md

## 2.模拟浏览器发送请求,获取响应

#%%

html = requests.get(url)

#%% md

## 3.解析网页   提取数据

#%% md

- 正则
- xpath
- bs4

#%%

# json类型转换
data = json.loads(html.json()['data'])
china_data = data['areaTree'][0]['children']

data_set = []

for i in china_data:
    data_dict = {}
    # 地区名称
    data_dict['province'] = i['name']
    # 疫情数据
    # 新增确诊
    data_dict['nowConfirm'] = i['total']['nowConfirm']
    data_dict['confirm'] = i['total']['confirm']
    data_dict['dead'] = i['total']['dead']
    data_dict['heal'] = i['total']['heal']
    data_dict['deadRate'] = i['total']['deadRate']
    data_dict['healRate'] = i['total']['healRate']
    data_set.append(data_dict)


#%%

df = pd.DataFrame(data_set)
df

#%% md

## 4. 保存数据   

#%%

df.to_csv(r'data.csv')

#%% md

在这里插入图片描述

二 、 数据可视化


#%% md

- matplotlib
- pyecharts    # pip install pyecharts

#%%

from pyecharts import options as opts
from pyecharts.charts import Bar,Line,Pie,Map,Grid

#%%

df2 = df.sort_values(by=['nowConfirm'],ascending=False)[:9]
df2

#%%

[list(i) for i in zip(df2['province'].values.tolist(),df2['nowConfirm'].values.tolist())]

#%%

pie = (
    Pie()
    .add(
        "",
        [list(i) for i in zip(df2['province'].values.tolist(),df2['nowConfirm'].values.tolist())],
        radius = ["10%","30%"]
    )
    .set_global_opts(
            legend_opts=opts.LegendOpts(orient="vertical", pos_top="70%", pos_left="70%"),
    )
    .set_series_opts(label_opts=opts.LabelOpts(formatter="{b}: {c}"))
)
pie.render_notebook()

#%%

line = (
    Line()
    .add_xaxis(list(df['province'].values))
    .add_yaxis("治愈率", df['healRate'].values.tolist())
    .add_yaxis("死亡率", df['deadRate'].values.tolist())
    .set_global_opts(
        title_opts=opts.TitleOpts(title="死亡率与治愈率"),

    )
)
line.render_notebook()

#%%

bar = (
    Bar()
    .add_xaxis(list(df['province'].values)[:6])
    .add_yaxis("死亡", df['dead'].values.tolist()[:6])
    .add_yaxis("治愈", df['heal'].values.tolist()[:6])
    .set_global_opts(
        title_opts=opts.TitleOpts(title="各地区确诊人数与死亡人数情况"),
        datazoom_opts=[opts.DataZoomOpts()],
        )
)
bar.render_notebook()

#%%

china_map = (
    Map()
    .add("现有确诊", [list(i) for i in zip(df['province'].values.tolist(),df['nowConfirm'].values.tolist())], "china")
    .set_global_opts(
        title_opts=opts.TitleOpts(title="各地区确诊人数"),
        visualmap_opts=opts.VisualMapOpts(max_=200, is_piecewise=True),
    )
)
china_map.render('a.html')

#%%

<think>嗯,用户想用Python爬取网易网站上的疫情数据。首先,我得看看他们提供的参考引用里有没有相关的信息。引用3提到了网易新闻的疫情网站,链接是https://wp.m.163.com/163/page/news/virus_report/index.html,可能需要用这个URL来爬取数据过用户给的引用里,引用2和3都提到了同的爬取方法,比如用API或者处理动态页面。 首先,我需要确定网易疫情数据是静态还是动态加载的。如果是动态内容,可能需要用Selenium或者requests模拟浏览器。过引用2里用了post请求获取API数据,可能网易也有类似的接口。或者引用3中的代码可能直接处理网页内容,但需要检查是否有反爬措施。 然后,用户需要具体的步骤,比如如何分析网页结构、发送请求、解析数据。可能需要用到requests库发送HTTP请求,BeautifulSoup或者正则表达式解析HTML。如果数据是通过JavaScript加载的,可能需要用Selenium或者找到隐藏的API接口。 另外,引用3提到将数据存入Excel,用户可能也希望保存数据。所以步骤应包括数据存储部分,比如使用pandas或openpyxl库。 还要注意反爬机制,比如设置请求头中的User-Agent,可能需要模拟浏览器行为,或者处理Cookies。引用2中的headers可以作为参考,确保请求头包含有效的User-Agent。 最后,生成相关问题需要考虑用户可能的后续需求,比如动态页面处理、数据存储优化或反反爬策略。比如,如何处理动态加载的数据,或者如何提高爬虫效率。</think>根据引用[3]提供的网易疫情网站URL,以下是使用Python爬取网易疫情数据的步骤分析: ### 一、网页分析阶段 1. 打开网易疫情数据页面(URL:`https://wp.m.163.com/163/page/news/virus_report/index.html`) 2. 按`F12`打开开发者工具,在`Network`标签中筛选`XHR`请求,发现数据通过API接口动态加载[^3] 3. 定位到实际数据接口地址: ``` https://c.m.163.com/ug/api/wuhan/app/data/list-total ``` ### 二、代码实现步骤 ```python import requests import pandas as pd def get_163_covid_data(): headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.0.0 Safari/537.36' } # 请求数据接口 api_url = 'https://c.m.163.com/ug/api/wuhan/app/data/list-total' response = requests.get(api_url, headers=headers) if response.status_code == 200: data = response.json() # 解析国内数据 china_data = data['data']['areaTree'][0]['children'] # 转换为DataFrame df = pd.DataFrame([{ '省份': item['name'], '确诊': item['total']['confirm'], '治愈': item['total']['heal'], '死亡': item['total']['dead'], '新增': item['today']['confirm'] } for item in china_data]) return df else: print('请求失败,状态码:', response.status_code) ``` ### 三、数据存储示例 ```python # 保存到Excel df = get_163_covid_data() df.to_excel('163_covid_data.xlsx', index=False) # 保存到CSV df.to_csv('163_covid_data.csv', encoding='utf_8_sig', index=False) ``` ### 四、注意事项 1. 需要定期更新请求头中的`User-Agent`,可参考引用[2]中的随机User-Agent设置方法 2. 该接口返回JSON数据包含全球数据,国内数据在`data.areaTree[0].children`路径下 3. 建议添加异常处理机制,应对接口变更或访问限制[^3]
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值