Hadoop压缩方式

本文探讨了Hadoop中压缩的重要性,包括节省空间、减少IO,并分析了不同压缩类型如有损和无损压缩。文章还介绍了MapReduce中压缩的场景,如Input、Map输出和Reduce输出,并强调了CPU使用情况对压缩选择的影响。此外,详细比较了LZ4、Snappy、LZO、GZIP和Bzip2等压缩格式,建议在不同场景下选择合适的压缩方式,如Bzip2用于Input,Snappy/LZO用于Map输出,高压缩比需求时选用Bzip2/LZO带索引。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

使用压缩也是有场景的,压缩也是一个调优点
为什么使用压缩
       节省空间
        MR的reduce会进行shullfer过程中会进行数据的传输,压缩可以减少网络和磁盘的IO
压缩的条件
       空间和CPU要充裕
压缩的技术
       有损压缩(lossycompression):压缩和解压的过程中数据有丢失,解压后很难和原数据一致,使用场景:视频
       无损压缩(lossless compression):压缩和解压的过程中数据没有丢失,使用场景:日志数据
对称和非对称
       对称:压缩和解压的时间相同
       非对称:压缩和解压的时间不一致
MR中压缩的场景
       input:输入文件有codec可以自动处理压缩
       map的输出:

configuration.set("mapreduce.output.fileoutputformat.compress","true");
configuration.set("mapreduce.output.fileoutputformat.compress.codec","org.apache.hadoop.io.compress.BZip2Codec");

       reduce的输出:

configuration.set("mapreduce.output.f
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值