大数据处理文件格式之ORC和Parquet选择

最新推荐文章于 2025-08-28 12:02:14 发布

原创

最新推荐文章于 2025-08-28 12:02:14 发布 · 564 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#orc #parquet #大数据

本文探讨大数据处理中的文件格式选择，重点对比ORC和Parquet。ORC在Hive下表现出较高的压缩比和查询效率，而Parquet因其广泛的框架支持成为更通用的选择。尽管ORC性能占优，但由于Parquet的列式存储、自带索引和压缩特性，加上良好的跨框架兼容性，使其在大数据开发中被普遍采用。文件格式的选择类似硬件接口的演进，通用性是关键因素。

大数据处理文件格式之ORC和Parquet选择

1. 背景

在大数据处理中，因为无法按照传统方式将海量数据存放到mysql中。所以各个框架都想办法将这些数据很好存放起来，既能保证数据安全，有可以确保数据查询地性能。
按照上述思路，出现了很多技术框架。

如HDFS，将文件以文件块形式切分，并且存放到集群中。有专门地节点负责这些文件地元数据管理（namenode， secondary namenode地checkpoint 机制）。这样可以保证数据安全性，也可以保证一定地文件访问便捷性。
在HDFS之上，出现了HBase，这是列式文件存储，很好实现了稀疏数据存储功能，降低数据存储压力。并且可以对存储地文件建立索引，提升查询性能。本质就是一个key value数据存储框架。
之后出现的hive，将结构化文件结合元数据，可以进行数据查询，分析处理。虽然本质上数据还是存放在hdfs上。
click house等等