Hive常见压缩格式和性能对比

本文探讨了Hive中不同压缩格式(如Snappy、LZ4、LZO、GZIP和BZIP2)的压缩比率、压缩与解压时间,并提供选择合适压缩格式的依据。在压缩比上,Snappy、LZ4和LZO更优,但在CPU消耗和时间成本上较高。而GZIP和BZIP2虽然压缩率更高,但压缩解压时间较长。适合冷备份的是GZIP和BZIP2,Map阶段常用Snappy,Reduce阶段则视存储或并行处理需求选择压缩格式。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

转载:
https://blog.youkuaiyun.com/qq_32641659/article/details/88997844

压缩能够减少存储磁盘空间,降低网络IO和磁盘IO,加快数据在磁盘和网络中的传输速度,从而提高系统的处理速度。
虽然由以上的好处,但是由于使用数据时,需要先将数据解压,加重了CPU负荷。根据我们的实际工作场景,我们要选择合适的压缩格式。

常见的压缩格式如下:
在这里插入图片描述
下面是一份源数据1.4G的文件,各类压缩格式的比率和时间对比
数据压缩后大小:
在这里插入图片描述
压缩和解压时间:
在这里插入图片描述
从上面对比可以看出:
在压缩数据比上:
Snappy、LZ4、LZO可以压缩到50%左右
GZIP、BZIP2可以压缩到30%左右

在压缩和解压时间上:
Snappy、LZ4、LZO 的压缩时间非常接近,范围6-8秒内;Snappy的解压时间是最高的,是压缩时间的3倍,其次是LZO,LZ4解压时间最低
GZIP、BZIP2 的压缩和解压时间都非常高。

总结一句话就是:压缩比率高的,压缩和解压时间花费就比较长。

那么我们如何选择合适的压缩格式呢?

Snappy:压缩速度快;支持ha
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值