文件压缩他有两大好处:1.节约磁盘空间
2.加速数据在网络和磁盘的传输
现在我所用的这个Hadoop经过重新编译,可以支持所有的压缩格式
各种压缩算法对应使用的java类
压缩格式 对应使用的java类
DEFLATE org.apache.hadoop.io.compress.DeFaultCodec
gzip org.apache.hadoop.io.compress.GZipCodec
bzip2 org.apache.hadoop.io.compress.BZip2Codec
LZO com.hadoop.compression.lzo.LzopCodec
LZ4 org.apache.hadoop.io.compress.Lz4Codec
Snappy org.apache.hadoop.io.compress.SnappyCodec
###在Map reduce中如何开启压缩算法(两种方法)
##方法一:在代码中进行设置压缩
== Configuration conf = new Configuration();
// 设置Map使用的压缩算法
conf.set(“mapreduce.map.output.compress”,“true”);
conf.set(“mapreduce.map.output.compress.codec”,“org.apache.hadoop.io.compress.SnappyCodec”);
// 设置reduce的压缩算法
conf.set(“mapreduce.output.fileoutputformat.compress”,“true”);
c