「Hive进阶篇」详解存储格式及压缩方式

大数据阶梯之路

已于 2022-09-19 22:25:03 修改

阅读量3.1k

点赞数 4

CC 4.0 BY-SA版权

文章标签： hive hadoop 大数据

于 2022-07-25 21:02:08 首次发布

本文链接：https://blog.youkuaiyun.com/liuweimingaihyt/article/details/125983360

本文介绍了Hive的四种存储格式（Textfile、Sequencefile、Orc、Parquet）及其特点，重点讨论了Orc和Parquet在压缩方式（如zlib、snappy）下的性能。行存储引擎适合全字段检索，列存储引擎适合多列查询。根据数据量和查询频率，推荐使用GZip压缩大量不常用数据，Snappy或Lzo压缩常用数据。在生产环境中，建议统一使用Orc格式，ODS层采用zlib压缩，DW层采用snappy压缩以平衡压缩速度和查询效率。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、前言

hive优化除了有hql语句逻辑优化，hql参数调优等等，还有一个不起眼的细节容易被忽视掉，那便是hive数仓模型表的存储格式和压缩方式，hive底层数据是依托在hadoop，以HDFS文件存储在集群上的，hive数仓模型表选择一个合适的存储格式和压缩方式也是hive优化的一点。
本篇就来聊一聊这块知识点吧。😄

通过大纲提问式进行概览，你能通过文章学到什么：
1. hive主要有几种存储格式&压缩方式
2. 每种存储格式和压缩方式的细节
3. 什么场景使用什么存储格式&压缩方式

二、存储格式

hive主要有textfile、sequencefile、orc、parquet 这四种存储格式，其中sequencefile很少使用，常见的主要就是orc和parquet这两种，往往也搭配着压缩方式合理使用。

建表声明语句是：stored as textfile/orc/parquet

1. Textfile

行式存储，这是hive表的默认存储格式，默认不做数据压缩，磁盘开销大，数据解析开销大，数据不支持分片（即代表着会带来无法对数据进行并行操作）

2. Orc

行列式存储，将数据按行分块，每个块按列存储，其中每个块都存储着一个索引，支持none和zlib和snappy这3种压缩方式，默认采用zlib压缩方式，不支持切片，orc存储格式能提高hive表的读取写入和处理的性能。

3. Parquet

列式存储，是一个面向列的二进制文件格式（不可直接读取），文件中包含数据和元数据，所以该存储格式是自解析的，在大型查询时效率很快高效，parquet主要用在存储多层嵌套式数据上提供良好的性能支持，默认采用uncompressed不压缩方式。

`聊聊什么是行存储引擎，什么是列存储引擎`

行存储引擎：同一条数据的不同字段都在相邻位置，所以当要查找某一条记录所有数据时行存储查询速度比较快
列存储引擎：以列来聚集数据，相同字段的值聚集在一起，所以当查询某一个指定列的所有数据时，列存储查询速度比较快

三、压缩方式

hive主要支持gzip、zlib、snappy、lzo 这四种压缩方式。
压缩不会改变元数据的分割性，即压缩后原来的值不变。

建表声明语句是：tblproperties("orc.compress"="SNAPPY")

压缩方式的评判标准主要有以下几点：

压缩比，越高越好
压缩时间，越快越好
已经压缩后是否可以再分割，可分割的话则可以为多个mapper程序并行处理，提高大数据分布式计算并行度

针对压缩方式做一个小结对比：

压缩率的话：gzip压缩率最佳，但压缩解压缩速度较慢
压缩速度的话：snappy压缩解压缩速度最佳，但压缩率较低
是否可切片的话：gzip/snappy/zlib是不支持切片，而lzo支持切片

四、总结

`适场景而选定压缩方式`

数据量极其大且不经常用来做计算的数据，可采用GZip，因为其压缩占比最高，但压缩解压缩速度最慢。
数据量不大且经常需要用来计算的数据，可采用Snappy或者Lzo，常常还用来搭配orc和parquet存储格式实现大幅度的数据压缩存储。

`适场景而选定存储格式`

hive生产环境下时常是采用orc或者parquet这2种存储格式，但最好是做好统一，别一个数仓里的表存储格式百花齐放
我建议就是数仓各层统一采用orc存储格式，拥有一定的压缩率且压缩解压缩速度也适中
orc存储格式默认搭配的zlib压缩方式适合用作数仓ODS层表设计，因为这层一般是业务贴源层来入库数据和备份，查询频率打不大，而orc存储格式搭配snappy压缩方式适合用作数仓DW层表设计，这公共层表一般查询较频繁，所以要考虑下查询时解压缩速度
一般数据量预测会很大的话才不选用orc存储格式，主要是为了避免map端数据倾斜，因为orc+snappy不支持分割文件操作，所以压缩文件只会被一个任务读取，压缩文件很大的话就会造成mapper处理该文件极其耗时，这就是所谓的map读取文件出现数据倾斜