背景
现实情况,在信息系统开发、电子商务平台、app等等相关软件开发,都会设计到行政区数据联动,这里已经爬好全国各省行政区划数据可供下载。
数据来源
内容为2023年全国统计用区划代码(12位)和城乡分类代码(3位),地域范围为国家统计局开展统计调查的全国31个省(自治区、直辖市),未包括我国台湾省、香港特别行政区和澳门特别行政区。2023年度全国统计用区划代码和城乡划分代码更新维护的标准时点调整为2023年6月30日。
国家统计局:
目前最新的数据为:2023-09-11,其他宣传2024年的都是假的,新的出来后,会第一时间发布。
数据情况
分两种数据结构:json文件,excel文件
注意:其中有些城市没有区,比如东莞市、中山市、儋州市等,很多公开分享的资料中都不包含这个,这里都详细标注出来,与国家统计局数据保持一致,如下:
数据解析
这里提供python语言的数据解析:
# *********************************************************
# ********下载地址【https://8ma.co/res/B8279F4X】************
# *********************************************************
import os
import pandas as pd
import sqlite3
import numpy as np
# 读取excel文件为df格式
def get_excel_df(file):
df = []
ws = pd.ExcelFile(file)
sheets = ws.sheet_names
for sheet in sheets:
tem_df = pd.read_excel(file, sheet_name=sheet, dtype='str')
tem_df = tem_df.replace(np.nan, '')
if len(df) == 0:
df = tem_df
else:
df = pd.concat([df, tem_df])
return df
def run():
for file in os.listdir("data_excel"):
df = get_excel_df("data_excel/" + file)
conn = sqlite3.connect('db_data/' + file.replace("xlsx", "db"))
# 存入sqlite3中
df.to_sql('data', conn, if_exists='replace', index=False)
if __name__ == '__main__':
run()
完毕!