一、背景
疫情至今近三年,国家和各省市卫健委官网都是通过全文本通报每日疫情数据,内容数据里有境外、国内,有确诊、无症状,确诊里又可能含无症状转确诊(各地通报不一样)等等,一堆文字和数据看的确实头疼,一直不明白为什么不做成表格,降低信息传递的成本。最近有点时间,就尝试做了个这样的项目:每日自动获取国家卫健委官网疫情数据转并为表格,再自动发布到今日头条。
二、程序执行效果
先看下程序执行的效果吧:

三、方案实现
1、总体方案
整体方案如下图,流程比较清晰,重点是如何通过程序发布头条(下文会展开描述)。开发语言选择Python,主要原因是:有丰富的相关功能包,语法相对简单,解析语言跨平台方便。

2、数据获取
这一步骤大致如下,相对简单,具体就不展开描述了:
1、http get 网页内容
2、通过BeautifulSoup 解析HTML,清洗html文本数据,获取疫情文本内容
3、数据处理
1)第一步
数据处理的第一步是获取全国,各省和新疆兵团的各自维度病例数,如本土确诊,本土无症状,本土无症状转确诊,境外输入确诊,境外输入无症状等。获取的文本内容如下图,卫健委每日通报文本内容结构都是一致的,如先通报国外数据,再通报国内数据,各省市的数据都在括号里、逗号分隔,这些
自动化发布:Python爬取疫情数据生成图表并发布到今日头条

本文介绍了一个Python自动化项目,每日自动获取国家卫健委的疫情数据,转换为表格,利用plotly生成图表,并通过selenium模拟登录发布到今日头条。该项目提供了一种稳定的数据自动化通报解决方案。
最低0.47元/天 解锁文章
209

被折叠的 条评论
为什么被折叠?



