Python JSON格式化从入门到精通（高手都在用的4种方法）

原创于 2026-01-02 10:42:50 发布 · 384 阅读

CC 4.0 BY-SA版权

第一章：Python JSON格式化从入门到精通（高手都在用的4种方法）

在现代Web开发和数据交换中，JSON（JavaScript Object Notation）已成为最主流的数据格式之一。Python通过内置的json模块提供了强大的支持，使得序列化与反序列化操作变得简单高效。掌握多种JSON格式化方法，不仅能提升代码可读性，还能优化性能与调试效率。

使用 json.dumps() 进行基础格式化

json.dumps() 是最常用的方法，可将Python对象转换为JSON字符串。通过参数控制格式输出：


import json

data = {"name": "Alice", "age": 25, "skills": ["Python", "Django"]}

# 格式化输出，增加缩进和排序
formatted = json.dumps(data, indent=2, sort_keys=True)
print(formatted)

上述代码中，indent=2 设置缩进为两个空格，sort_keys=True 按键名排序，便于阅读。

处理中文与非ASCII字符

默认情况下，json.dumps() 会转义非ASCII字符。若需保留原始字符，应设置ensure_ascii=False：


chinese_data = {"城市": "北京", "人口": 2154}
result = json.dumps(chinese_data, ensure_ascii=False, indent=2)
print(result)

此设置适用于包含中文、表情符号等Unicode字符的场景。

自定义JSON编码器

当对象包含无法序列化的类型（如datetime），可通过继承json.JSONEncoder实现自定义编码：


from datetime import datetime

class CustomEncoder(json.JSONEncoder):
    def default(self, obj):
        if isinstance(obj, datetime):
            return obj.isoformat()
        return super().default(obj)

data_with_time = {"event": "login", "time": datetime.now()}
output = json.dumps(data_with_time, cls=CustomEncoder, indent=2)
print(output)

使用第三方库提升性能

对于高并发或大数据量场景，推荐使用orjson或ujson等高性能库。以ujson为例：

安装命令：pip install ujson
API与标准库一致，但速度更快

库	性能特点	适用场景
json (标准库)	稳定、兼容性好	通用场景
ujson	极高速度	高频序列化

第二章：JSON基础与Python中的序列化操作

2.1 JSON数据结构与Python类型的映射关系

在Web开发与数据交换中，JSON（JavaScript Object Notation）是常用的数据格式。Python通过内置的`json`模块实现与JSON之间的转换，其核心在于数据类型的映射关系。

标准映射对照表

JSON类型	Python类型
object	dict
array	list
string	str
number (int/real)	int/float
true / false	True / False
null	None

实际转换示例

import json

data = {"name": "Alice", "age": 30, "active": true, "hobbies": ["coding", "reading"]}
# Python对象转为JSON字符串
json_str = json.dumps(data)
print(json_str)  # 输出: {"name": "Alice", "age": 30, "active": true, "hobbies": ["coding", "reading"]}

# JSON字符串解析为Python字典
parsed = json.loads(json_str)
print(type(parsed))  # 输出: <class 'dict'>

代码中`json.dumps()`将Python对象序列化为JSON格式字符串，而`json.loads()`则执行反序列化，恢复为原生Python数据结构。该机制确保了跨平台数据的一致性与可操作性。

2.2 使用json.dumps()实现基本格式化输出

在Python中，`json.dumps()` 是将Python对象序列化为JSON格式字符串的核心方法。通过参数配置，可实现结构化与可读性兼备的输出。

基础用法与参数说明

import json

data = {"name": "Alice", "age": 30, "skills": ["Python", "DevOps"]}
formatted = json.dumps(data, indent=2, sort_keys=True)
print(formatted)

上述代码中，`indent=2` 指定使用两个空格缩进，提升可读性；`sort_keys=True` 确保键按字母顺序排列，便于比对和调试。

常用格式化选项对比

参数	作用	示例值
indent	设置缩进空格数	2, 4
sort_keys	是否按键排序	True/False
ensure_ascii	是否转义非ASCII字符	False（支持中文）

2.3 美化输出：indent参数在实际项目中的应用

在实际开发中，JSON 数据的可读性对调试和日志记录至关重要。通过设置 `indent` 参数，可以控制序列化输出的缩进格式，提升结构清晰度。

基础用法示例

import json

data = {"name": "Alice", "roles": ["admin", "user"], "active": True}
print(json.dumps(data, indent=4))

上述代码将输出带有 4 个空格缩进的格式化 JSON。`indent` 接受整数表示空格数，设为 `None` 或 0 则压缩输出。

不同缩进效果对比

indent 值	输出形式
None	{"name":"Alice","roles":["admin"]}
2	{\n "name": "Alice",\n "roles": [...]

合理使用 `indent` 能显著改善 API 响应日志、配置导出等场景下的数据可读性。

2.4 处理中文字符：ensure_ascii参数详解

在Python的`json`模块中，`ensure_ascii`参数控制非ASCII字符的编码方式。默认值为`True`，此时中文字符会被转义为Unicode编码。

参数行为对比

ensure_ascii=True：输出如"\u4e2d\u6587"的转义序列
ensure_ascii=False：保留原始中文，输出"中文"

import json

data = {"name": "张三", "age": 25}
# 默认行为
print(json.dumps(data, ensure_ascii=True))
# 输出: {"name": "\u5f20\u4e09", "age": 25}

# 禁用ASCII转义
print(json.dumps(data, ensure_ascii=False))
# 输出: {"name": "张三", "age": 25}

上述代码中，`ensure_ascii=False`确保了JSON字符串中的中文可读性，适用于日志输出、配置生成等场景。但需注意，输出内容应使用UTF-8编码保存，否则可能引发解码错误。

2.5 序列化自定义对象：default函数的高级用法

在处理复杂数据结构时，JSON序列化常遇到无法直接编码的自定义对象。Python的`json.dumps()`通过`default`参数提供扩展机制，允许开发者定义对象到可序列化类型的映射。

default函数的工作机制

当`json.dumps()`遇到不可序列化的对象时，会调用`default`函数尝试转换。若未提供该函数，则抛出`TypeError`。

import json
from datetime import datetime

class CustomEncoder:
    def to_dict(self):
        return {"name": "example", "created": datetime.now()}

def default_serializer(obj):
    if hasattr(obj, 'to_dict'):
        return obj.to_dict()
    elif isinstance(obj, datetime):
        return obj.isoformat()
    raise TypeError(f"Object of type {type(obj)} is not JSON serializable")

data = CustomEncoder()
json_str = json.dumps(data, default=default_serializer, indent=2)

上述代码中，`default_serializer`首先检查对象是否具备`to_dict`方法，若有则调用；接着处理`datetime`类型。这种分层判断逻辑确保了扩展性与类型安全。

使用场景对比

场景	推荐方式
单一类对象序列化	类内实现to_dict + default函数
多类型混合结构	注册类型映射表

第三章：反序列化解析与异常处理

3.1 使用json.loads()解析JSON字符串

在Python中，`json.loads()` 是将JSON格式字符串转换为Python对象的核心方法。它支持将标准的JSON字符串解析为字典、列表等原生数据结构，便于程序进一步处理。

基本用法示例

import json

json_string = '{"name": "Alice", "age": 30, "is_student": false}'
data = json.loads(json_string)
print(data["name"])  # 输出: Alice

上述代码中，`json.loads()` 接收一个合法的JSON字符串，并返回一个对应的Python字典。注意：JSON中的 `false` 会被自动转为Python的 `False`。

常见参数说明

strict：默认为 True，控制是否严格解析Unicode编码；
object_hook：可自定义函数，用于转换字典的构建方式；
parse_float：指定浮点数解析器，如使用 decimal.Decimal 提高精度。

3.2 读取JSON文件时的编码与路径最佳实践

在处理JSON文件读取时，正确的编码设置与路径管理是确保程序稳定运行的关键。默认情况下，JSON规范要求使用UTF-8编码，因此在读取文件时应显式指定编码格式以避免乱码问题。

常见路径与编码问题对照表

问题类型	原因	解决方案
文件未找到	相对路径计算错误	使用绝对路径或基于项目根目录的相对路径
解码错误	文件实际编码非UTF-8	确认并指定正确编码，如utf-8-sig

3.3 常见解析错误及健壮性处理策略

典型解析异常场景

在实际数据解析过程中，常遇到格式不匹配、字段缺失或类型转换失败等问题。例如 JSON 中字符串误作数字，或 XML 标签未闭合，均会导致解析中断。

字段类型不匹配：期望整型却传入字符串
结构缺失：关键字段为 null 或完全不存在
编码错误：非 UTF-8 字符导致解码失败

健壮性处理示例

func safeParseInt(val interface{}) (int, error) {
    switch v := val.(type) {
    case float64:
        return int(v), nil
    case string:
        return strconv.Atoi(v)
    default:
        return 0, fmt.Errorf("unsupported type")
    }
}

该函数通过类型断言兼容多种输入源，避免因单一类型假设导致 panic，提升解析器容错能力。

错误恢复建议

采用默认值填充、日志记录与部分结果返回策略，确保系统在异常下仍可提供可用输出。

第四章：高性能与扩展性格式化方案

4.1 使用simplejson提升兼容性与性能

在处理JSON数据时，Python内置的`json`模块虽能满足基本需求，但在性能和兼容性方面存在局限。`simplejson`作为其增强替代品，提供了更快的解析速度与更广泛的Python版本支持。

安装与基础使用

import simplejson as json

data = {'name': 'Alice', 'age': 30}
json_str = json.dumps(data, ensure_ascii=False, sort_keys=True)
parsed = json.loads(json_str)

上述代码中，`ensure_ascii=False`支持中文输出，`sort_keys=True`确保键有序，提升序列化一致性。

性能对比优势

编译优化：`simplejson`在C层实现关键路径，速度优于标准库
兼容性更强：支持旧版Python及边缘JSON结构的容错解析
功能丰富：提供`use_decimal`等参数，精确控制数值类型处理

4.2 ujson库在高并发场景下的加速实践

在高并发服务中，JSON序列化与反序列化的性能直接影响系统吞吐量。Python原生`json`模块因基于纯C实现但仍存在GIL限制，在高频调用下成为瓶颈。`ujson`作为高性能JSON库，采用C扩展实现，显著降低解析开销。

性能对比数据

库	序列化耗时（ms）	反序列化耗时（ms）
json	120	150
ujson	65	80

典型使用示例

import ujson

def handle_request(data):
    # 反序列化请求体
    payload = ujson.loads(data)
    # 处理逻辑...
    return ujson.dumps(result)

上述代码利用`ujson.loads()`和`dumps()`替代标准库，提升解析速度约40%。其内部优化了内存预分配与字符串编码处理，尤其适合微服务间频繁通信的场景。

4.3 orjson：更快的JSON处理器在FastAPI中的应用

性能驱动的选择

在高并发API场景中，序列化成为瓶颈。orjson 是一个基于 Rust 编写的高性能 JSON 库，相较于 Python 内置 json 模块，其序列化速度提升可达 5–10 倍。

支持 dataclass、datetime、UUID 等类型的原生序列化
输出默认为 bytes，减少编码开销
不可变依赖，安全性更高

集成到 FastAPI

通过重写 FastAPI 的默认 JSON 序列化器，可全局启用 orjson：

from fastapi import FastAPI
import orjson
from starlette.responses import JSONResponse

class ORJSONResponse(JSONResponse):
    media_type = "application/json"
    def render(self, content) -> bytes:
        return orjson.dumps(content)

app = FastAPI(default_response_class=ORJSONResponse)

上述代码将所有响应默认使用 orjson.dumps 进行序列化，无需修改业务逻辑即可获得性能增益。参数说明：render 方法返回字节流，直接由 ASGI 服务器发送，减少中间转换步骤。

4.4 自定义JSONEncoder实现日期、Decimal等特殊类型支持

在Python中处理JSON序列化时，标准的json.dumps()无法直接处理如datetime、Decimal等非基本数据类型。为解决此问题，可通过继承json.JSONEncoder类实现自定义编码逻辑。

重写default方法扩展类型支持

import json
from datetime import datetime
from decimal import Decimal

class CustomJSONEncoder(json.JSONEncoder):
    def default(self, obj):
        if isinstance(obj, datetime):
            return obj.isoformat()
        elif isinstance(obj, Decimal):
            return float(obj)
        return super().default(obj)

上述代码中，default方法针对datetime返回ISO格式字符串，将Decimal转为浮点数以确保JSON兼容性。

使用示例与输出效果

输入对象包含datetime.now()和Decimal('99.99')
序列化后时间字段输出为标准时间字符串
金额字段保留数值精度并转换为浮点表示

第五章：总结与进阶学习建议

持续构建项目以巩固技能

真实项目是检验技术掌握程度的最佳方式。建议开发者每掌握一个新概念后，立即应用到小型实践中。例如，在学习 Go 语言的并发模型后，可尝试构建一个简单的并发爬虫：


package main

import (
    "fmt"
    "net/http"
    "sync"
)

func fetch(url string, wg *sync.WaitGroup) {
    defer wg.Done()
    resp, err := http.Get(url)
    if err != nil {
        fmt.Printf("Error fetching %s: %v\n", url, err)
        return
    }
    defer resp.Body.Close()
    fmt.Printf("Fetched %s with status: %s\n", url, resp.Status)
}

func main() {
    var wg sync.WaitGroup
    urls := []string{"https://example.com", "https://httpbin.org/status/200"}

    for _, url := range urls {
        wg.Add(1)
        go fetch(url, &wg)
    }
    wg.Wait()
}

参与开源与技术社区

在 GitHub 上贡献代码，尤其是知名基础设施项目如 Kubernetes 或 Prometheus
阅读优秀项目的 PR 讨论，理解设计权衡与工程决策
定期撰写技术笔记并发布至社区平台（如 DEV.to、掘金）

制定个性化学习路径

根据职业方向选择深入领域。以下为常见路径参考：

目标方向	推荐学习内容	实战建议
云原生开发	Kubernetes API、Operator 模式	使用 Kubebuilder 构建自定义控制器
高性能后端	Go 调度器、pprof 性能分析	对高并发服务进行火焰图分析