avro格式详解

最新推荐文章于 2025-09-16 15:53:04 发布

原创

最新推荐文章于 2025-09-16 15:53:04 发布 · 6.1k 阅读

CC 4.0 BY-SA版权

文章标签：

【Avro介绍】

Apache Avro是hadoop中的一个子项目，也是一个数据序列化系统，其数据最终以二进制格式，采用行式存储的方式进行存储。

Avro提供了：

基于以上这些优点，avro在hadoop体系中被广泛使用。除此之外，在hudi、iceberg中也都有用到avro作为元数据信息的存储格式。

【schema】

Avro依赖"schema"（模式）来实现数据结构的定义，schema通过json对象来进行描述表示，具体表现为：

schema中的类型由原始类型（也就是基本类型）（null、boolean、int、long、float、double、bytes和string）和复杂类型（record、enum、array、map、union和fixed）组成。

1、原始类型

原始类型包括如下几种：

原始类型没有指定的属性值，原始类型的名称也就是定义的类型的名称，因此，schema中的"string"等价于{"type":"string"}。

2、复杂类型

Avro支持6种复杂类型：records、enums、arrays、maps、unions和fixed。

1）Records

reocrds使用类型名称"record"，并支持以下属性

一个简单示例：

{
    "type": "record",
    "name": "LongList",
    "aliases": ["LinkedLongs"],
    "fields", [
        {"name": "v