一般而言,Json具有良好的表达性,在数据交换过程中被大量使用,但在大数据的环境中,由于Json的冗余相对来说较高,导致要存储的数据量很大,极大的浪费了服务器存储空间,本文通过将Json转为Avro数据格式,压缩数据,以供给后面处理提供提供便利。
在处理之前,我们先普及一下相关的概念。
1、Json
Json是一种轻量级的数据交换格式。它基于 ECMAScript 规范的一个子集,采用完全独立于编程语言的文本格式来存储和表示数据。在互联网数据交换中大量被使用。
直观的来看,Json有以下的格式:
{"Name1": "Brett", "Name2": "McLaughlin"}
即:键值对
对于一般使用者来说,最常见的使用情况便是通过Json[‘Key’]去取到对应的Value。
关于Json,在这里就不展开了。
2、Avro
Avro是Hadoop的子项目,适用于大数据下的数据存储。
它的主要特点有:支持二进制序列化方式,可以便捷,快速地处理大量数据;动态语言友好,Avro提供的机制使动态语言可以方便地处理Avro数据。