Hive格式各种格式下不同压缩算法的比较

本文对比了不同压缩算法和文件格式在Hive中的使用效果,包括Text、Parquet、ORC和RCFile等格式,以及Snappy、Gzip和ZLIB等压缩算法,展示了各种组合下的数据压缩比率。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

原始Text格式的hive分区大小为119.2G。

压缩算法

Text格式

Parquet格式

ORC

RCFile

不压缩

119.2G

54.1G

20.0G

98G

Snappy压缩

30.2 G

23.6

13.6

27.0G

Gzip压缩

18.8 G

14.1 G

不支持

15.2G

ZLIB压缩

不支持

不支持

10.1G

不支持

 

注意:我们集群现在hive设置默认snappy压缩,而parquet的压缩格式设置为parquet.compression=snappy,以前setmapred.output.compression=org.apache.hadoop.io.compress.SnappyCodec不起作用。

Orc的压缩格式设置方法为:orc.compress=SNAPPY,默认为ZLIB.

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值