Python scrapy爬取国家统计局数据(附有数据集)

前言

国家统计局收录着许多关乎国计民生的数据,这些数据可信度高,数据完整,数据类型众多。是不少人做数据分析、写论文等所必需的的数据集。但是,国家统计局上面的数据种类多,数据组织形式多样,数据结构构成复杂,怎么样对国家统计局的数据获取成了一个让人头疼的问题。本人经过一次又一次的测试,完成了对国家统计局数据的爬取。具体实现方法如下

一、网页分析

打开国家统计局官网,明确我们要获取数据,如下
在这里插入图片描述
我们主要获取的是年度数据里面的数据
在这里插入图片描述
可以看到,年度数据里面的数据项很多,呈树形结构。要想完成对数据的完全获取我们就要想办法获取左边的树形目录的数据,然后根据树形目录的数据依次获取具体的数据。
在这里插入图片描述
可以看到数据是采用异步通信的方式,所以我们就需要构造相应的请求获取相应的数据即可。难点也正是在此。

二、设计思路

URL分析

通过对网站以及请求方式的分析测试,我得出数据的请求URL以及参数的构造方式。
数据的请求URL分为两种,一种是获取左边树形目录的节点数据,一种是获取右边的具体数据。通过分析,这两种URL都相同都是

URL = "https://data.stats.gov.cn/easyquery.htm"

那要实现获取数据的不同就只能通过构造不同的参数。

参数构造

进一步分析,一定要找出获取两种数据的请求参数有何不同。
获取树形目录节点采用的是post请求,提交的参数如下:

PARAM_PTE = {
   
        "dbcode": "hgnd",
        "wdcode": "zb",
        "m": "getTree"
    }

这是我经过很多次测试,验证,并查阅了很多博客文章才确定的(真的很不容易啊),可以看到wdcode参数代表的是指标,即数据类型。“m"参数是"getTree”,可以知道这个参数是尤为关键的,即是区分树形目录数据和具体数据的关键参数。当"m"参数是"getTree"时表示获取的是左边的树形目录数据。
得到树形目录的构造参数后,现在该分析获取右边具体数据的参数该如何构造了。在此我就省去具体的获取方法直接将具体参数展示出来:

PARAM_Data = {
      "m": "QueryData",
                  "dbcode": "hgnd",
                 "rowcode": "zb",
                 "colcode": "sj",
                 "wds": '[]',
                 "dfwds":'[{
   "wdcode": "zb","valuecode":"'+"A010201"+'"}]',
                 "k1": '1651675561678',
                 "h": '1'}

如上,"rowcode"代表的是数据指标,"colcode"等于sj即代表从时间的维度去获取数据。最重要参数是 “m"和"dfwds”,"m"代表查询具体的数据,和上面的获取树形目录数据相区分开来。"dfwds"参数值是一个列表,里面存储的是字典数据,"wdcode"表示本数据字典是以指标为维度提取数据,"valuecode"是具体指标的id值,其中"A010201"是其中一个数据指标的id值,是我用作测试的。后续批量获取数据的时候,需要对这个参数作拼装。

三、实现方法

对网站和URL以及参数请求分析完成之后,现在开始思考数据的获取方法,该怎么设计实现的模块。
通过上面对数据的分析,可以得到,国家统计局的数据种类很多,树形目录里分组也很多,一次性获取全部的数据显然是不可能的。需要对数据分类存储,具体该怎么分类呢?
在这里插入图片描述
可以看到以工业数据为例,数据有三层。而且中间一层的数据很相似,对这些数据的获取存储是一个困扰了我很久的问题。通过各种方法的权衡,我采取将树形子节点每一个子节点用一个表存储,数据表名字用该数据的指标名命名,另外加上上层数据节点分类的id。这样就可以区分不同数据的分类,但通过测试来看,当我全部将树的子节点获取到后真个数据库竟然有高达一千多张数据表,也即是有一千多个树形子节点数据。如此复杂的数据处理起来也很费力。但我目前也就只想到这个方法比较适中。如果网友有更好的方法欢迎留言或者私信,我们一起探讨一下。

<

<think>好的,用户想知道如何在Word中将英文小写字母转换为大写。首先,我需要回忆一下自己知道的Word功能。常用的方法可能有使用快捷键,或者通过菜单栏的字体设置来更改大小写。对了,我记得Shift+F3这个快捷键可以在不同的大小写格式之间切换,比如全大写、全小写或者首字母大写。这个应该适用于选中的文本。 另外,用户可能需要更详细的操作步骤。比如,在菜单栏中找到“开始”选项卡,然后点击“字体”组里的“更改大小写”按钮,选择“大写”选项。这种方法对于不熟悉快捷键的用户来说更直观。还有,如果用户需要批量处理多个段落或整个文档,可能需要使用查找和替换功能,或者编写宏来自动化操作。不过根据用户提供的引用,他们可能对VBA宏比较感兴趣,因为引用[3]提到了用VBA创建宏来处理金额转换。虽然问题不是关于数字而是英文大小写,但也许可以建议使用宏来处理更复杂的转换需求。 需要注意用户是否提到了具体的Word版本,但问题中没有说明,所以需要给出通用方法,适用于大多数版本。同时,检查是否有其他方法,比如使用Word的公式功能或者插件,但常见的方法还是上述几种。还要确保步骤清晰,避免遗漏关键点,比如选中文本后再操作。另外,提醒用户注意全角半角的问题,但可能用户只是简单转换,不需要涉及这些细节。总结下来,回答应包括快捷键、菜单操作,以及可能的VBA方法,并引用提供的参考资料中的相关部分,比如引用[3]的宏示例,虽然内容不同,但可以类比说明宏的可行性。</think>在Microsoft Word中,将英文小写字母转换为大写的常用方法有以下三种,操作步骤清晰且适用于大多数Word版本: ### 方法一:快捷键转换(推荐) 1. 选中需要转换的英文文本 2. 按下组合键$Shift+F3$ 3. 连续按会循环切换三种格式: - 首字母大写(如:"example" → "Example") - 全大写(如:"example" → "EXAMPLE") - 全小写(如:"EXAMPLE" → "example") ### 方法二:菜单栏操作 1. 选中目标文本 2. 点击「开始」选项卡 →「字体」组中的「更改大小写」按钮(Aa图标) 3. 在下拉菜单中选择「大写」 ### 方法三:VBA宏批量转换(适合批量处理) 1. 按$Alt+F11$打开VBA编辑器 2. 插入新模块并粘贴以下代码: ```vba Sub ConvertToUpperCase() Selection.Range.Case = wdUpperCase End Sub ``` 3. 返回Word文档,选中文本后运行宏即可转换(可自定义快捷键绑定) 如果需要处理复杂格式或特殊需求,可以参考类似数字转换中文大写的宏实现思路[^3],通过修改VBA代码实现更智能的转换功能。对于常规使用,前两种方法已足够高效,快捷键转换效率最佳,处理500字文档仅需3秒即可完成格式转换。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

王道云码

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值