大家好! 我是深圳技术大学FSR实验室
的同学,在OpenHarmony成长计划啃论文俱乐部
里,与华为、软通动力、润和软件、拓维信息、深开鸿
等公司一起,学习和研究序列化相关技术
…
【FFH】啃论文俱乐部---JSON压缩算法解读
JSON压缩算法解读
接下来我们进入关于JSON压缩算法
的学习。
为什么需要压缩JSON?
尽管JSON数据格式比XML效率要高,但是它仍然是web服务器和浏览器传输过程中比较低效
的数据格式。为什么呢?首先,它将所有的内容都转换为了文本
,第二是转换之后的文本过度使用引号
,这样会给每个字符串添加多两个字节
。第三,它本身没有schema的标准格式
,比如在一个消息中序列化多个对象的时候,即使每个对象的属性的键名是重复且相同的
,但是转换后的文本数据还是会重复每一个键名。
JSON以前的时候有一个优势,就是可以被Javascript引擎直接解析,但因为现在越来越重视安全性,JSON的这个优势也逐渐消失了,但是因为它比XML效率以及性能都更高,所以许多传统的C/S模式都是选择JSON,比如web服务,当有庞大的数据量
以及复杂数据结构需要从web浏览器中传输到服务器的时候,JSON压缩
就起到了非常大的作用,然而中间就会存在我们刚刚说的三点问题,我们也不能使用传统的gzip压缩算法,因为浏览器不知道服务器是否支持gzip解压。
下面我们就来看看两种常见的JSON压缩算法,cJSON
与HPack
。
cJSON压缩算法(cJSON Compression Algorithm)
cJSON压缩算法的特点就是可以使用自动类型提取压缩JSON数据格式
的内容。它成功解决了一个非常重要的问题,就是我们上一小节提到的第三点,将不断重复的键名舍去
了,我们我们来看一个例子:
使用cJSON前的数据格式:
[
{
//表示一个坐标点
"x":100,
"y":100
},
{
//表示一个长方形
"x":100,
"y":100,
"width":200,
"height":150
},
{
},//表示一个空对象
... //以下省略数以万计的对象
]
上面未经压缩的数据中,我们可以看到有非常多的空间被重复的键名所占据,比如“x”,“y”等等,当数据非常多的时候,这些看起来不起眼的重复键