SQLite中的JSONB二进制格式解析
概述
SQLite从3.45.0版本(约2024年1月发布)开始引入了一种称为JSONB的JSON二进制编码格式。JSONB是一种存储在BLOB中的二进制格式,相比传统的文本JSON具有更高效的存储和处理性能。
JSONB的优势
JSONB相比普通文本JSON主要有两大优势:
- 存储空间更小:通常可以减少5%-10%的存储空间
- 处理速度更快:处理所需的CPU周期可以减少一半以上
SQLite内置的JSON函数可以同时接受普通文本JSON和JSONB格式作为输入。
JSONB的设计理念
JSONB的核心设计思想是每个元素都包含一个头部信息,其中包含该元素的大小和类型。这种设计:
- 用二进制头部替代了传统JSON中的分隔符(引号、花括号、方括号等)
- 由于头部已经包含元素大小和类型信息,解析时可以更快地读取元素内容
- 实际数据负载与传统JSON保持相同顺序
JSONB的编码结构
JSONB采用头部+负载的编码方式:
头部结构
头部包含两部分信息:
-
负载大小:由首字节的高4位决定
- 值0-11:头部为1字节,负载大小由这4位直接确定
- 值12-15:头部为2/3/5/9字节,负载大小为后续字节表示的无符号大端整数
-
元素类型:由首字节的低4位决定,共定义了16种类型(0-15)
元素类型详解
| 类型值 | 类型名称 | 描述 | |-------|---------|------| | 0 | NULL | JSON的null值,负载必须为0字节 | | 1 | TRUE | JSON的true值,负载必须为0字节 | | 2 | FALSE | JSON的false值,负载必须为0字节 | | 3 | INT | 标准RFC 8259格式的整数 | | 4 | INT5 | 非标准格式的整数(如JSON5扩展) | | 5 | FLOAT | 标准RFC 8259格式的浮点数 | | 6 | FLOAT5 | 非标准格式的浮点数 | | 7 | TEXT | 无转义字符的JSON字符串 | | 8 | TEXTJ | 包含RFC 8259转义字符的字符串 | | 9 | TEXT5 | 包含JSON5扩展转义的字符串 | | 10 | TEXTRAW | 包含需要转义的UTF8字符的字符串 | | 11 | ARRAY | JSON数组 | | 12 | OBJECT | JSON对象 | | 13-15 | RESERVED | 保留未来使用 |
JSONB的设计考量
JSONB的设计主要考虑了两个关键因素:
-
延迟转换:在从文本JSON转换为JSONB时,不立即进行格式标准化转换,而是保留原始格式,只在需要时才进行转换,减少不必要的CPU开销。
-
作为解析树:JSONB可以直接作为JSON处理的中间表示,省去传统处理中的解析和序列化步骤,大幅提升处理效率。
有效JSONB的条件
一个有效的JSONB BLOB必须满足:
- 包含且仅包含一个完整的JSON元素
- 该元素必须完全填满整个BLOB空间
- 头部信息必须格式正确
SQLite的JSON函数在判断BLOB是否为JSONB时,会检查这些条件。
注意事项
虽然JSONB格式被完整文档化,但它主要是为SQLite内部使用设计的。应用程序开发者应该通过SQLite的JSON函数来操作JSONB,而不是直接处理其二进制格式。这种设计保证了JSONB格式的向后兼容性,使数据库升级时无需数据迁移。
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考