大数据中，Parquet，Avro，ORC这三种存储格式有什么区别？

最新推荐文章于 2025-11-29 15:09:43 发布

原创最新推荐文章于 2025-11-29 15:09:43 发布 · 899 阅读

10 ·

CC 4.0 BY-SA版权

文章标签：

#大数据

大数据专栏收录该内容

277 篇文章

订阅专栏

Parquet、Avro、ORC 三种存储格式对比

这三种都是大数据生态系统中常用的列式或混合存储格式，各有其特点和适用场景。

核心特性对比

特性	Parquet	Avro	ORC
存储格式	列式存储	行式存储	列式存储
Schema演进	支持（有限）	优秀支持	支持
压缩效率	优秀	良好	优秀
查询性能	优秀（分析型）	良好（事务型）	优秀（分析型）
写入性能	良好	优秀	良好
编程语言支持	广泛	广泛	主要Java生态

详细技术对比

1. Parquet

设计理念： 为分析型查询优化的列式存储

-- Impala中使用Parquet的示例
CREATE TABLE user_behavior_parquet (
    user_id BIGINT,
    session_id STRING,
    page_views INT,
    click_events INT,
    dwell_time DOUBLE
)
STORED AS PARQUET
TBLPROPERTIES ('parquet.compression'='SNAPPY');

优势：

🔍 谓词下推: 强大的过滤能力
📊 列统计: 每列都有min/max等统计信息
🎯 嵌套数据: 对复杂类型支持优秀
🔄 兼容性: 与Spark、Impala等完美集成

适用场景：

数据仓库和分析查询
读取频繁，写入较少的场景
需要复杂嵌套数据结构的场景

2. Avro

设计理念： Schema驱动的行式存储，适合数据序列化

-- Impala中使用Avro的示例
CREATE TABLE user_events_avro
STORED AS AVRO
TBLPROPERTIES ('avro.schema.literal'='{
  "type": "record",
  "name": "UserEvent",
  "fields": [
    {"name": "event_id", "type": "string"},
    {"name": "user_id", "type": "string"},
    {"name": "event_type", "type": "string"},
    {"name": "timestamp", "type": "long"},
    {"name": "properties", "type": {"type": "map", "values": "string"}}
  ]
}');

优势：

📝 Schema演进: 向前向后兼容
🚀 序列化性能: 快速的序列化/反序列化
🔧 动态Schema: 运行时Schema解析
📨 消息系统: 适合Kafka等流式系统

适用场景：

数据交换和消息传递
ETL过程中的中间格式
Schema频繁变化的场景
需要完整行数据的操作

3. ORC

设计理念： Hadoop生态优化的列式存储

-- Hive中使用ORC的示例（Impala对ORC支持有限）
CREATE TABLE sales_orc (
    transaction_id BIGINT,
    customer_id INT,
    product_id INT,
    amount DECIMAL(10,2),
    sale_date DATE
)
STORED AS ORC
TBLPROPERTIES ('orc.compress'='SNAPPY');

优势：

⚡ Hive集成: 与Hive深度优化
📈 索引丰富: 轻量级索引（min-max, bloom filter）
💾 压缩率高: 通常比Parquet压缩更好
🔍 ACID支持: 支持事务操作

适用场景：

Hive为主要计算引擎的数据湖
需要ACID事务的场景
存储空间敏感的应用

性能对比详细分析

存储效率

压缩率: ORC ≈ Parquet > Avro
存储空间: ORC通常比Parquet节省5-10%

查询性能

分析查询: Parquet ≈ ORC > Avro
全表扫描: Avro > Parquet ≈ ORC
特定列查询: Parquet ≈ ORC > Avro

写入性能

写入速度: Avro > Parquet ≈ ORC
Schema灵活性: Avro > Parquet ≈ ORC

实际选择建议

选择 Parquet 当：

-- 场景：数据分析平台
CREATE TABLE analytics_events (
    event_time TIMESTAMP,
    user_id BIGINT,
    event_name STRING,
    properties MAP<STRING,STRING>
)
STORED AS PARQUET
TBLPROPERTIES (
    'parquet.compression'='SNAPPY',
    'parquet.block.size'='268435456'
);

✅ 多使用Spark、Impala进行分析查询
✅ 需要处理嵌套数据结构
✅ 查询通常只涉及部分列

选择 Avro 当：

-- 场景：数据管道中间存储
CREATE TABLE kafka_backup (
    kafka_key STRING,
    kafka_value STRING,
    headers MAP<STRING,STRING>,
    timestamp TIMESTAMP
)
STORED AS AVRO
TBLPROPERTIES ('avro.schema.url'='hdfs:///schemas/kafka_event.avsc');

✅ 作为Kafka消息的持久化存储
✅ Schema经常变化
✅ 需要完整的行数据访问
✅ 作为ETL过程的中间格式

选择 ORC 当：

-- 场景：Hive数据仓库
CREATE TABLE customer_segments (
    segment_id INT,
    segment_name STRING,
    customer_count INT,
    criteria MAP<STRING,STRING>,
    update_time TIMESTAMP
)
STORED AS ORC
TBLPROPERTIES (
    'orc.compress'='ZLIB',
    'transactional'='true'
);