msgspec性能基准测试全面解析

原创于 2025-06-19 09:24:17 发布 · 282 阅读

·

5

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

msgspec性能基准测试全面解析

msgspec A fast serialization and validation library, with builtin support for JSON, MessagePack, YAML, and TOML 项目地址: https://gitcode.com/gh_mirrors/ms/msgspec

基准测试的局限性说明

在深入分析msgspec的性能表现之前，我们需要理解基准测试的一些固有局限性：

测试环境局限性：基准测试通常在紧密循环中反复调用相同函数，这会导致指令缓存保持热状态，分支预测高度准确，这与真实世界的访问模式存在差异
测试偏差风险：作为msgspec的作者，在编写基准测试时难免会存在无意识的偏向性
环境依赖性：所有测试都是在特定环境下进行的（2020年x86架构的Linux笔记本电脑，CPython 3.11）

尽管如此，基准测试仍能帮助我们理解不同序列化格式之间的权衡取舍。建议在实际应用前自行进行针对性测试。

JSON序列化与验证性能对比

测试场景

这个基准测试模拟了使用msgspec或其他验证库时的常见工作流程，测量两个核心操作：

解码JSON输入，根据模式验证，并转换为用户友好的Python对象
将这些Python对象编码回JSON

数据结构定义

测试使用了以下数据结构模式（使用msgspec.Struct类型定义）：

import enum
import datetime
import msgspec

class Permissions(enum.Enum):
    READ = "READ"
    WRITE = "WRITE"
    READ_WRITE = "READ_WRITE"

class File(msgspec.Struct, kw_only=True, tag="file"):
    name: str
    created_by: str
    created_at: datetime.datetime
    updated_by: str | None = None
    updated_at: datetime.datetime | None = None
    nbytes: int
    permissions: Permissions

class Directory(msgspec.Struct, kw_only=True, tag="directory"):
    name: str
    created_by: str
    created_at: datetime.datetime
    updated_by: str | None = None
    updated_at: datetime.datetime | None = None
    contents: list[File | Directory]

对比库及结果

参与对比的库及其版本：

msgspec (0.18.5)
mashumaro (3.11)
pydantic (1.10.13和2.5.2)
cattrs (23.2.3)

性能表现：

msgspec比mashumaro快约6倍
比cattrs快约10倍
比pydantic V2快约12倍
比pydantic V1快约85倍

技术原理分析

msgspec之所以能在验证性能上大幅领先，关键在于其在解码过程中同时进行类型验证的设计：

单次遍历优势：其他库需要先解码再验证，意味着需要两次完整遍历数据结构
内存分配优化：直接创建正确类型的对象，避免了临时对象的创建和转换
指针追踪减少：减少了因多次遍历导致的内存访问开销

内存使用方面，msgspec也表现出显著优势，这得益于：

精简的库体积
高效的模式表示方式
优化的内存状态管理

纯JSON序列化性能

msgspec内置了高性能JSON库，可以作为标准库json模块的替代品。对比测试了以下JSON库：

msgspec (0.18.5)
orjson (3.9.10)
ujson (5.9.0)
rapidjson (1.13)
simdjson (5.0.2)
Python标准库json

关键发现：

使用预定义模式时，msgspec是最快的
无模式使用时，msgspec与orjson性能相当
有趣的是，msgspec带模式的JSON解码+验证比单纯JSON解码更快

MessagePack序列化性能

msgspec同样提供了高性能MessagePack实现，对比测试包括：

msgspec (0.18.5)
msgpack (1.0.7)
ormsgpack (1.4.1)

结果：

带模式使用时，msgspec最快
无模式使用时，仍比其他Python MessagePack库快

大数据集JSON处理

测试使用一个约77MB的大型JSON文件（conda-forge的noarch包信息），测量内存使用和解码时间。

关键结果：

msgspec带Struct类型解码：内存使用最少(67.6MB)，解码最快(176.8ms)
msgspec无模式解码：内存218.3MB，时间630.5ms
其他库内存使用是msgspec的3-9倍，时间是3.6-6.1倍

优化原理：

Struct类型分配成本低，内存效率高
无模式解码时重用短字典键，减少重复分配
某些库需要复制原始消息到临时缓冲区，增加额外内存开销

Struct类型性能

对比msgspec.Struct与其他类似解决方案：

标准Python类
dataclasses
attrs (23.1.0)
pydantic (2.5.2)

测试操作：

类定义时间
实例创建时间
实例相等比较
实例顺序比较

结果亮点：

类定义：msgspec接近标准类，远快于其他方案
实例创建：比标准类快4倍，比pydantic快17倍
相等比较：快4-30倍
顺序比较：快5-60倍

垃圾回收优化

测试Struct类型在GC压力和内存使用方面的优化：

对比项：

标准Python类
使用__slots__的标准类
msgspec Struct
带gc=False的msgspec Struct

结果：

GC时间：标准类80ms → 带gc=False的Struct仅1.07ms（75倍提升）
内存使用：标准类211MB → 带gc=False的Struct仅104.85MB

优化原理：

Struct内存布局类似__slots__类
延迟GC跟踪大幅减少GC时间
gc=False选项完全避免GC开销

库体积对比

msgspec与pydantic的磁盘占用比较：

msgspec 0.18.4：0.46MB
pydantic 2.5.2：6.71MB
msgspec体积仅为pydantic的1/15

对于依赖包体积敏感的应用，msgspec具有明显优势。

总结

msgspec通过以下设计实现了卓越性能：

解码与验证一体化设计
高效的内存表示和分配策略
精心优化的Struct类型实现
可选的GC优化选项
精简的代码库体积

这些特性使msgspec成为高性能Python序列化和验证的理想选择，特别适合对性能、内存使用和启动时间有严格要求的应用场景。

msgspec A fast serialization and validation library, with builtin support for JSON, MessagePack, YAML, and TOML 项目地址: https://gitcode.com/gh_mirrors/ms/msgspec

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

蓬虎泓Anthea 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。