Apache Avro简介

最新推荐文章于 2025-09-16 15:53:04 发布

原创最新推荐文章于 2025-09-16 15:53:04 发布 · 1.9k 阅读

0 ·

CC 4.0 BY-SA版权

序列化机制专栏收录该内容

6 篇文章

订阅专栏

Introduction

Avro是一个数据序列化系统。
Avro提供了：
1)丰富数据结构
2)压缩，快速二进制数据格式
3)container file(存储持久数据)
4)远程方法调用(RPC)
5)与动态语言的简单整合。并不需要Code generation来都写数据或实现RPC协议。Code generation是可选的。

Schemas

Avro依赖schemal。当Avro数据被读取时，写入时的schema总是存在。这样允许每个数据被写入时不会带有重复数据，使得序列化又快又小。这也便于动态脚本语言使用，因为数据和schema在一起，且是自定义的。
当Avro数据存储在文件中时，它的schema也与它存储在一起。所以文件可以被任何程序处理。如果程序读取数据遇到了不同的schema，这也很容易被解决，因为两个schema都会被展现。
当Avro在RPC中使用时，客户端和sever以握手链接来交互schema(这样是可选的，所以对于大多数调用，实际上没有schema被传输)。因为client和server都有彼此完整的schema，相同名称的filed，遗失的filed和多余的filed等之间的交互都可以被轻易的解决掉。
Avro schema使用JSON定义。

Comparison with other system

Avro提供了类似与thrift,protocol buffer类似的功能，但Avro有自己的独特之处：
1)动态类型：Avro不要求生成代码，数据总是伴随着schema。
2)未标记数据：因为schema在数据读取是总是存在，更少的类型信息会与数据编码在一起，导致序列化后的数据更小。
3)不需要手动分配field ID：当schema变更后，当处理数据时，新旧schema都会存在。使用filed名称，差异很轻易的就解决掉了。