【Hadoop】Compression Options

最新推荐文章于 2025-01-12 19:58:39 发布

原创最新推荐文章于 2025-01-12 19:58:39 发布 · 1k 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

Hadoop 专栏收录该内容

19 篇文章

订阅专栏

本文对比了几种MapReduce中常用的压缩格式，包括bzip2、zlib、lzo和snappy等。根据压缩率和解压速度进行了综合考量，推荐在不同阶段采用不同的压缩算法以平衡I/O效率和处理时间。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

http://comphadoop.weebly.com/experiment-and-results.html

http://comphadoop.weebly.com/

http://www.slideshare.net/ydn/hug-compression-talk

以上几篇文章MR中常见的几种compression格式，并通过一些实验数据来比较。通常，compression可以应用于三个阶段：map input, map output, reduce output。

根据第三篇slide中的实验数据，几种compression算法需要从space/time上进行权衡：从压缩率来看，bzip2 > zlib(deflate, gzip) > lzo/snappy；从解压缩速度上看是相反的。尤其是压缩速度，lzo/snappy比zlib要快6~8倍，比bzip2要快8～10倍。解压速度差距没那么大，lzo/snappy比zlib快1～2倍(不过比bzip2要快将近20倍)。

因此，对于MR Job中的compression选择：

map input常用sequecefile+zlib(default codec)。首先，bzip2虽然压缩率很高，但是解压速度太慢，IO上节省的时间可能都要被解压时间所抵消。而zlib的解压速度不算太差，而且压缩率比lzo/snappy要高，考虑到MR Job通常是IO-bound，选择zlib相对更能提高性能。
对于map output，考虑到map output需要在map端做压缩，在reduce端做解压，通常选择解压缩速度更快的lzo/snappy。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。