前言
国家统计局收录着许多关乎国计民生的数据,这些数据可信度高,数据完整,数据类型众多。是不少人做数据分析、写论文等所必需的的数据集。但是,国家统计局上面的数据种类多,数据组织形式多样,数据结构构成复杂,怎么样对国家统计局的数据获取成了一个让人头疼的问题。本人经过一次又一次的测试,完成了对国家统计局数据的爬取。具体实现方法如下
一、网页分析
打开国家统计局官网,明确我们要获取数据,如下
我们主要获取的是年度数据里面的数据
可以看到,年度数据里面的数据项很多,呈树形结构。要想完成对数据的完全获取我们就要想办法获取左边的树形目录的数据,然后根据树形目录的数据依次获取具体的数据。
可以看到数据是采用异步通信的方式,所以我们就需要构造相应的请求获取相应的数据即可。难点也正是在此。
二、设计思路
URL分析
通过对网站以及请求方式的分析测试,我得出数据的请求URL以及参数的构造方式。
数据的请求URL分为两种,一种是获取左边树形目录的节点数据,一种是获取右边的具体数据。通过分析,这两种URL都相同都是
URL = "https://data.stats.gov.cn/easyquery.htm"
那要实现获取数据的不同就只能通过构造不同的参数。
参数构造
进一步分析,一定要找出获取两种数据的请求参数有何不同。
获取树形目录节点采用的是post请求,提交的参数如下:
PARAM_PTE = {
"dbcode": "hgnd",
"wdcode": "zb",
"m": "getTree"
}
这是我经过很多次测试,验证,并查阅了很多博客文章才确定的(真的很不容易啊),可以看到wdcode参数代表的是指标,即数据类型。“m"参数是"getTree”,可以知道这个参数是尤为关键的,即是区分树形目录数据和具体数据的关键参数。当"m"参数是"getTree"时表示获取的是左边的树形目录数据。
得到树形目录的构造参数后,现在该分析获取右边具体数据的参数该如何构造了。在此我就省去具体的获取方法直接将具体参数展示出来:
PARAM_Data = {
"m": "QueryData",
"dbcode": "hgnd",
"rowcode": "zb",
"colcode": "sj",
"wds": '[]',
"dfwds":'[{
"wdcode": "zb","valuecode":"'+"A010201"+'"}]',
"k1": '1651675561678',
"h": '1'}
如上,"rowcode"代表的是数据指标,"colcode"等于sj即代表从时间的维度去获取数据。最重要参数是 “m"和"dfwds”,"m"代表查询具体的数据,和上面的获取树形目录数据相区分开来。"dfwds"参数值是一个列表,里面存储的是字典数据,"wdcode"表示本数据字典是以指标为维度提取数据,"valuecode"是具体指标的id值,其中"A010201"是其中一个数据指标的id值,是我用作测试的。后续批量获取数据的时候,需要对这个参数作拼装。
三、实现方法
对网站和URL以及参数请求分析完成之后,现在开始思考数据的获取方法,该怎么设计实现的模块。
通过上面对数据的分析,可以得到,国家统计局的数据种类很多,树形目录里分组也很多,一次性获取全部的数据显然是不可能的。需要对数据分类存储,具体该怎么分类呢?
可以看到以工业数据为例,数据有三层。而且中间一层的数据很相似,对这些数据的获取存储是一个困扰了我很久的问题。通过各种方法的权衡,我采取将树形子节点每一个子节点用一个表存储,数据表名字用该数据的指标名命名,另外加上上层数据节点分类的id。这样就可以区分不同数据的分类,但通过测试来看,当我全部将树的子节点获取到后真个数据库竟然有高达一千多张数据表,也即是有一千多个树形子节点数据。如此复杂的数据处理起来也很费力。但我目前也就只想到这个方法比较适中。如果网友有更好的方法欢迎留言或者私信,我们一起探讨一下。