Python scrapy爬取国家统计局数据（附有数据集）

Python Scrapy爬取国家统计局数据方法

原创已于 2024-12-04 09:47:38 修改 · 2.2k 阅读

15 ·

CC 4.0 BY-SA版权

文章标签：

#python #scrapy #数据库 #爬虫

于 2024-11-19 20:20:23 首次发布

爬虫专栏收录该内容

2 篇文章

订阅专栏

前言

国家统计局收录着许多关乎国计民生的数据，这些数据可信度高，数据完整，数据类型众多。是不少人做数据分析、写论文等所必需的的数据集。但是，国家统计局上面的数据种类多，数据组织形式多样，数据结构构成复杂，怎么样对国家统计局的数据获取成了一个让人头疼的问题。本人经过一次又一次的测试，完成了对国家统计局数据的爬取。具体实现方法如下

一、网页分析

打开国家统计局官网，明确我们要获取数据，如下
在这里插入图片描述
我们主要获取的是年度数据里面的数据

可以看到，年度数据里面的数据项很多，呈树形结构。要想完成对数据的完全获取我们就要想办法获取左边的树形目录的数据，然后根据树形目录的数据依次获取具体的数据。
在这里插入图片描述
可以看到数据是采用异步通信的方式，所以我们就需要构造相应的请求获取相应的数据即可。难点也正是在此。

二、设计思路

URL分析

通过对网站以及请求方式的分析测试，我得出数据的请求URL以及参数的构造方式。
数据的请求URL分为两种，一种是获取左边树形目录的节点数据，一种是获取右边的具体数据。通过分析，这两种URL都相同都是

URL = "https://data.stats.gov.cn/easyquery.htm"

那要实现获取数据的不同就只能通过构造不同的参数。

参数构造

进一步分析，一定要找出获取两种数据的请求参数有何不同。
获取树形目录节点采用的是post请求，提交的参数如下：

PARAM_PTE = {
        "dbcode": "hgnd",
        "wdcode": "zb",
        "m": "getTree"
    }

这是我经过很多次测试，验证，并查阅了很多博客文章才确定的（真的很不容易啊），可以看到wdcode参数代表的是指标，即数据类型。“m"参数是"getTree”，可以知道这个参数是尤为关键的，即是区分树形目录数据和具体数据的关键参数。当"m"参数是"getTree"时表示获取的是左边的树形目录数据。
得到树形目录的构造参数后，现在该分析获取右边具体数据的参数该如何构造了。在此我就省去具体的获取方法直接将具体参数展示出来：

PARAM_Data = {   "m": "QueryData",
                  "dbcode": "hgnd",
                 "rowcode": "zb",
                 "colcode": "sj",
                 "wds": '[]',
                 "dfwds":'[{"wdcode": "zb","valuecode":"'+"A010201"+'"}]',
                 "k1": '1651675561678',
                 "h": '1'}

如上，"rowcode"代表的是数据指标，"colcode"等于sj即代表从时间的维度去获取数据。最重要参数是 “m"和"dfwds”，"m"代表查询具体的数据，和上面的获取树形目录数据相区分开来。"dfwds"参数值是一个列表，里面存储的是字典数据，"wdcode"表示本数据字典是以指标为维度提取数据，"valuecode"是具体指标的id值，其中"A010201"是其中一个数据指标的id值，是我用作测试的。后续批量获取数据的时候，需要对这个参数作拼装。

三、实现方法

对网站和URL以及参数请求分析完成之后，现在开始思考数据的获取方法，该怎么设计实现的模块。
通过上面对数据的分析，可以得到，国家统计局的数据种类很多，树形目录里分组也很多，一次性获取全部的数据显然是不可能的。需要对数据分类存储，具体该怎么分类呢？
在这里插入图片描述
可以看到以工业数据为例，数据有三层。而且中间一层的数据很相似，对这些数据的获取存储是一个困扰了我很久的问题。通过各种方法的权衡，我采取将树形子节点每一个子节点用一个表存储，数据表名字用该数据的指标名命名，另外加上上层数据节点分类的id。这样就可以区分不同数据的分类，但通过测试来看，当我全部将树的子节点获取到后真个数据库竟然有高达一千多张数据表，也即是有一千多个树形子节点数据。如此复杂的数据处理起来也很费力。但我目前也就只想到这个方法比较适中。如果网友有更好的方法欢迎留言或者私信，我们一起探讨一下。

四、具体实现

前期准备工作就绪，现在就开始具体代码编写。正如前面所说，数据表很多很杂。所以我们为了省力，就需要自动创建表。如下是创建表代码：

    def CreatTable(self,table_name,COMMENT,COMMENT_table):
        sql = """CREATE TABLE IF NOT EXISTS %s (
                      `zb` varchar(300) COMMENT '%s',
                      `data` double COMMENT '数据',
                      `time` varchar(10) COMMENT '年份时间',
                      `unit` varchar(30) COMMENT '单位'
                    ) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4 COMMENT='%s';""" % (table_name,COMMENT,COMMENT_table)
        try:
            print(sql)
            self.db_cur.execute(sql)
            print("Table %s created successfully." % table_name)
        except Exception as e:
            print("Error: %s" % e)

另外，为了后续方便根据id获取数据需要先将每个数据的大分类先获取并物理化存储，如下：
在这里插入图片描述
这里比较简单，具体的代码我就不展示了。
现在开始数据的获取代码编写，先遍历id与zb对应的数据表将数据的大分类挨个发送请求：

    def start_requests(self):
         result = NBS_ZH.dataBaseSql.selectZb()
         for zb,id in result:
            PARAM_PTE["id"] = id
            PARAM_PTE["id"] = 'A0A'
            yield scrapy.FormRequest(url=URL,
                                 headers=HEAD,
                                 formdata=PARAM_PTE,
                                 callback=self.creatTableByNode,
                                 dont_filter=True)

这里的formdata=PARAM_PTE是之前构造的获取节点的参数。

 def creatTableByNode(self,response):
        responseJson = json.loads(response.text)
        for i in responseJson:
            name = i["name"]
            if (i["isParent"]):#如果是父节点，递归访问直到得到所有节点为止，每个节点创建一个表格
                PARAM_PTE["id"] = i["id"]
                yield scrapy.FormRequest(url=URL,
                                         headers=HEAD,
                                         formdata=PARAM_PTE,
                                         callback=self.creatTableByNode)
            else:
               NBS_ZH.dataBaseSql.CreatTable(i["pid"]+"_"+name2,name,name)
              PARAM_Data["dfwds"]='[{"wdcode": "zb","valuecode":'+'"'+i["id"]+'"'+'},{"wdcode":"sj","valuecode": "LAST30"}]'
                    yield scrapy.FormRequest(url=URL,
                                             method="GET",
                                             headers=HEAD,
                                             meta=p_name,
                                             formdata=PARAM_Data,
                                             callback=self.parseData)

这部分代码很重要，每一个节点都访问过，并判断是不是父节点，如果是父节点就递归访问，知道获取所有的节点为止。如果不是父节点就说明是数据节点，也正是我们要获取的数据。此时就要创建一个数据表存储。并回调到具体的数据处理方法中。具体的数据处理方法如下：

    def parseData(self, response):
        js = json.loads(response.text)
        p_name = response.meta.get("name")
        p_id = response.meta.get("id")
        returndata = js["returndata"]
        # 构建指标名称和ID的对应字典，方便后续用ID查询指标名称
        nodeDict = dict()
        # 数据节点
        datanodes = returndata["datanodes"]
        # 指标节点
        wdnodes = returndata["wdnodes"]
        # 往字典里加入数据
        for k in wdnodes[0]["nodes"]:
            nodeDict[k["code"]] = k["cname"]#构造编码与名字的键值对
            nodeDict[k["code"]+"unit"] = k["unit"]#构造编码与数据单位的键值对
        for i in datanodes:
            # 获取具体数据
            data = i["data"]["data"]
            zb_code = i["wds"][0]["valuecode"]
            zb_name = nodeDict[zb_code]
            unit = nodeDict[zb_code+"unit"]
            # 获取年份信息
            valuecode_years = i["wds"][1]["valuecode"]
            name1 = p_name.replace(')', '')
            name2 = name1.replace('(', '')
            NBS_ZH.dataBaseSql.instartData(p_id+'_'+name2, zb_name, data, unit, valuecode_years, p_name)
            print(zb_name,data,unit,valuecode_years)

该方法是具体数据的获取方法，非常重要，逻辑也比较简单清晰。主要是针对国家统计局返回的具体数据结构做出相应的处理。所以刚开始看不懂并不要紧，获取一部分数据就知道数据的处理逻辑了。
数据写入数据库的具体代码如下：

    def instartData(self,table_name,zb_name,data,unit,valuecode_years,p_name):
        sql = """
               INSERT INTO %s VALUES('%s','%s','%s','%s')
              """ % (table_name,zb_name,data,valuecode_years,unit)
        try:
            self.db_cur.execute(sql)
            self.db_conn.commit()
            print("data  insert successfully.")
        except Exception as e:
            print("Error: %s" % e)