MapReduce压缩方式

本文详细介绍了MapReduce中常用的压缩格式及其性能特点,包括Bzip2、Gzip、LZO和Snappy。对比了它们在压缩率、压缩速度、解压速度及是否支持split等方面的差异,为不同场景下选择合适的压缩方式提供了依据。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

MapReduce常用的压缩方式

压缩格式是否需要安装文件拓展名是否可分
DEFAULT.deflate
bzip2.bz2
Gzip.gz
LZO.lzo
Snappy.snappy

性能测试

压缩格式原文件大小压缩后大小压缩速度解压速度
gzip8.3G1.8G20M/s60M/s
LZO8.3G3G50M/s70M/s
Bzip28.3G1.1G3M/s10M/s
Snappy8.3G4G200M/s530M/s

总结,常用压缩方式的采用场景

  1. Bzip2 压缩方式(考虑空间成本时采用
    压缩率最高,压缩速度最低,hadoop自带,不支持split,所以输出文件不能超过blocksize。可以通过修改blocksize参数来调整储存压缩后文件。
  2. Gzip
    压缩率较高,压缩速度较快,hadoop自带,Linux自带gzip口令,但是不支持split
  3. LZO
    压缩率低,压缩速度快,Linux/Hadoop需要安装,支持split
  4. Snappy(考虑时间成本时采用,大部分企业采用该方式)
    压缩率低,压缩速度极快,Linux/Hadoop需要安装,不支持支持split
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值