Python JSON数据处理完全指南：从基础到数据库存储

最新推荐文章于 2025-11-23 09:30:52 发布

原创最新推荐文章于 2025-11-23 09:30:52 发布 · 889 阅读

13 ·

CC 4.0 BY-SA版权

文章标签：

#python #json #数据库 #pip #fastapi

Python 专栏收录该内容

101 篇文章

订阅专栏

文章目录

Python JSON数据处理完全指南：从基础到数据库存储

Python JSON数据处理完全指南：从基础到数据库存储

JSON（JavaScript Object Notation）作为一种轻量级数据交换格式，在现代软件开发中占据着核心地位。无论是API交互、配置文件还是数据存储，JSON都以其简洁性和可读性成为首选格式。本文将系统讲解Python中JSON数据的处理方法，从基础操作到高级实践，再到数据库存储方案，帮助开发者构建完整的JSON数据处理知识体系。

一、JSON基础：数据类型与核心操作

1.1 JSON与Python数据类型映射

JSON和Python数据类型存在天然的对应关系，这是实现数据转换的基础：

JSON类型	Python类型	说明
对象（object）	字典（dict）	键值对集合
数组（array）	列表（list）	有序元素集合
字符串（string）	字符串（str）	需用双引号包裹
数字（number）	整数（int）/浮点数（float）	无大小限制
true/false	True/False	布尔值大小写有区别
null	None	表示空值

这种映射关系使得JSON与Python对象的转换几乎无缝衔接。

1.2 json模块核心函数

Python标准库中的json模块提供了完整的JSON处理能力，核心包含四个函数：

函数	功能描述	适用场景
`json.dumps()`	Python对象 → JSON字符串	内存中数据转换
`json.dump()`	Python对象 → JSON文件	数据持久化到文件
`json.loads()`	JSON字符串 → Python对象	解析API返回的JSON数据
`json.load()`	JSON文件 → Python对象	读取本地JSON配置文件

1.3 基础操作示例

序列化：Python对象转JSON

import json

# 定义Python数据结构
data = {
    "name": "张三",
    "age": 25,
    "is_student": False,
    "hobbies": ["篮球", "编程"],
    "scores": {"math": 90.5, "english": 85},
    "address": None
}

# 转换为JSON字符串
json_str = json.dumps(data)
print("基础JSON字符串：", json_str)

# 格式化输出（带缩进和中文保留）
formatted_json = json.dumps(
    data,
    ensure_ascii=False,  # 保留中文不转义
    indent=2,            # 缩进2个空格
    sort_keys=True       # 按键名排序
)
print("\n格式化JSON：\n", formatted_json)

# 写入JSON文件
with open("data.json", "w", encoding="utf-8") as f:
    json.dump(data, f, ensure_ascii=False, indent=2)

反序列化：JSON转Python对象

import json

# 解析JSON字符串
json_str = '''
{
  "name": "李四",
  "age": 30,
  "is_student": true,
  "hobbies": ["足球", "音乐"],
  "scores": {"math": 88, "english": 92},
  "address": null
}
'''
python_obj = json.loads(json_str)
print("解析结果类型：", type(python_obj))  # <class 'dict'>
print("姓名：", python_obj["name"])       # 李四

# 读取JSON文件
with open("data.json", "r", encoding="utf-8") as f:
    file_data = json.load(f)
print("年龄：", file_data["age"])  # 25

二、JSON处理最佳实践

处理JSON数据时，遵循最佳实践能显著提升代码质量和系统稳定性。

2.1 异常处理：增强程序健壮性

JSON处理中常见错误包括格式错误、文件读写失败等，必须通过异常捕获机制处理：

import json
from json import JSONDecodeError

def safe_load_json(file_path):
    """安全加载JSON文件，包含完整异常处理"""
    try:
        with open(file_path, 'r', encoding='utf-8') as f:
            return json.load(f)
    except FileNotFoundError:
        print(f"错误：文件 {file_path} 不存在")
        return None
    except JSONDecodeError as e:
        print(f"JSON格式错误：{e}（行：{e.lineno}，列：{e.colno}）")
        return None
    except Exception as e:
        print(f"未知错误：{e}")
        return None

2.2 中文与特殊字符处理

默认情况下，json.dumps()会将非ASCII字符转义为\uXXXX格式，需通过参数控制以保留原始字符：

# 错误示例：中文被转义
data = {"name": "张三", "描述": "JSON处理示例"}
bad_json = json.dumps(data)
print(bad_json)  # {"name": "\u5f20\u4e09", "描述": "\u8fd9\u662f\u4e00\u4e2a\u6d4b\u8bd5"}

# 正确示例：保留中文
good_json = json.dumps(data, ensure_ascii=False)
print(good_json)  # {"name": "张三", "描述": "JSON处理示例"}

写入文件时必须指定encoding="utf-8"，避免中文乱码。

2.3 数据验证：确保数据完整性

解析JSON后需验证数据结构，避免因缺少字段或类型错误导致后续逻辑失败：

# 基础验证函数
def validate_user_data(user_data):
    required_keys = ["id", "name", "age"]
    # 检查必要字段
    for key in required_keys:
        if key not in user_data:
            raise ValueError(f"缺少必要字段：{key}")
    # 检查数据类型
    if not isinstance(user_data["id"], int):
        raise TypeError("字段 'id' 必须是整数")
    if not isinstance(user_data["age"], (int, float)):
        raise TypeError("字段 'age' 必须是数字")

# 高级验证（使用pydantic库）
from pydantic import BaseModel, ValidationError

class User(BaseModel):
    id: int
    name: str
    age: int | float
    email: str | None = None  # 可选字段

try:
    user = User(**{"id": "1001", "name": "李四", "age": "25"})
except ValidationError as e:
    print(f"数据验证失败：{e}")  # 提示类型错误

2.4 大型JSON处理：流式解析

对于GB级大型JSON文件，使用json.load()会导致内存溢出，应采用流式解析：

# 安装：pip install ijson
import ijson

def stream_large_json(file_path):
    """流式读取大型JSON数组元素"""
    with open(file_path, 'rb') as f:
        # 假设JSON结构为 {"items": [{}, {}, ...]}
        parser = ijson.items(f, 'items.item')
        for item in parser:
            yield item  # 逐个返回元素，降低内存占用

# 使用示例
for item in stream_large_json("10GB_data.json"):
    process_item(item)  # 逐个处理元素

2.5 自定义对象序列化

默认情况下，json模块无法序列化自定义类实例，需通过default参数指定转换规则：

import json
from datetime import datetime

class Product:
    def __init__(self, name, price, create_time):
        self.name = name
        self.price = price
        self.create_time = create_time

# 序列化函数
def product_encoder(obj):
    if isinstance(obj, Product):
        return {
            "__type__": "Product",
            "name": obj.name,
            "price": obj.price,
            "create_time": obj.create_time.isoformat()
        }
    if isinstance(obj, datetime):
        return obj.isoformat()
    raise TypeError(f"不支持的类型：{type(obj)}")

# 反序列化函数
def product_decoder(dct):
    if dct.get("__type__") == "Product":
        return Product(
            dct["name"],
            dct["price"],
            datetime.fromisoformat(dct["create_time"])
        )
    return dct

# 使用示例
product = Product("笔记本电脑", 5999, datetime(2023, 10, 1))
json_str = json.dumps(product, default=product_encoder, ensure_ascii=False)
restored = json.loads(json_str, object_hook=product_decoder)

2.6 安全与敏感数据处理

禁止使用eval()解析JSON（存在代码注入风险）
序列化前过滤敏感信息：

def filter_sensitive_data(data):
    """过滤敏感字段"""
    sensitive_keys = ["password", "token", "phone"]
    return {k: v for k, v in data.items() if k not in sensitive_keys}

user_data = {"id": 1, "name": "张三", "password": "secret", "phone": "13800138000"}
safe_data = filter_sensitive_data(user_data)

三、JSON数据存储到数据库

将JSON数据持久化到数据库时，需根据数据库类型选择合适的策略。

3.1 关系型数据库（以MySQL为例）

关系型数据库需要预先定义表结构，适合存储结构固定的JSON数据：

步骤1：创建数据表

CREATE TABLE users (
  id INT PRIMARY KEY,
  name VARCHAR(50) NOT NULL,
  age INT,
  email VARCHAR(100) UNIQUE,
  hobbies JSON  -- MySQL 5.7+支持JSON类型
);

步骤2：Python实现代码

import json
import pymysql

def save_to_mysql(json_data):
    db_config = {
        'host': 'localhost',
        'user': 'root',
        'password': 'your_password',
        'database': 'json_demo',
        'charset': 'utf8mb4'
    }
    
    connection = None
    try:
        connection = pymysql.connect(** db_config)
        cursor = connection.cursor()
        
        # 批量插入SQL（参数化查询防注入）
        sql = """
        INSERT INTO users (id, name, age, email, hobbies)
        VALUES (%s, %s, %s, %s, %s)
        ON DUPLICATE KEY UPDATE
            name = VALUES(name), age = VALUES(age)
        """
        
        # 处理数据：列表转JSON字符串
        insert_data = [
            (item['id'], item['name'], item['age'], 
             item['email'], json.dumps(item['hobbies']))
            for item in json_data
        ]
        
        cursor.executemany(sql, insert_data)
        connection.commit()
        print(f"成功处理 {cursor.rowcount} 条数据")
        
    except pymysql.MySQLError as e:
        if connection: connection.rollback()
        print(f"数据库错误：{e}")
    finally:
        if connection: connection.close()

3.2 NoSQL数据库（以MongoDB为例）

MongoDB原生支持JSON格式（实际存储为BSON），适合存储结构灵活的JSON数据：

import json
from pymongo import MongoClient

def save_to_mongodb(json_data):
    try:
        client = MongoClient('mongodb://localhost:27017/')
        db = client['json_demo']
        collection = db['users']
        
        # 批量插入
        result = collection.insert_many(json_data)
        print(f"插入 {len(result.inserted_ids)} 条数据")
        
        # 或使用upsert实现"存在则更新"
        # for item in json_data:
        #     collection.update_one({'id': item['id']}, {'$set': item}, upsert=True)
            
    except Exception as e:
        print(f"MongoDB错误：{e}")
    finally:
        if 'client' in locals():
            client.close()

3.3 数据库选择策略

数据库类型	优势场景	劣势
关系型数据库	结构固定、需事务支持、复杂查询	嵌套JSON处理繁琐、扩展性差
NoSQL数据库	结构灵活、嵌套数据、大数据量	事务支持弱、复杂查询能力有限