hdfs文件压缩

原创

已于 2022-05-07 18:43:40 修改 · 2.7k 阅读

7 ·

CC 4.0 BY-SA版权

文章标签：

#mapreduce #hadoop #hdfs

于 2022-05-07 18:39:26 首次发布

一、四种压缩格式

1 gzip压缩

优点：压缩率比较高，而且压缩/解压速度也比较快；hadoop本身支持，在应用中处理gzip格式的文件就和直接处理文本一样；有hadoop native库；大部分linux系统都自带gzip命令，使用方便。

缺点：不支持split。

应用场景：当每个文件压缩之后在130M以内的（1个块大小内），都可以考虑用gzip压缩格式。譬如说一天或者一个小时的日志压缩成一个gzip 文件，运行mapreduce程序的时候通过多个gzip文件达到并发。hive程序，streaming程序，和java写的mapreduce程序完全和文本处理一样，压缩之后原来的程序不需要做任何修改。

2 lzo压缩

优点：压缩/解压速度也比较快，合理的压缩率；支持split，是hadoop中最流行的压缩格式；支持hadoop native库；可以在linux系统下安装lzop命令，使用方便。

缺点：压缩率比gzip要低一些；hadoop本身不支持，需要安装；在应用中对lzo格式的文件需要做一些特殊处理（为了支持split需要建索引，还需要指定inputformat为lzo格式）。

应用场景：一个很大的文本文件，压缩之后还大于200M以上的可以考虑，而且单个文件越大，lzo优点越越明显。

3 snappy压缩

优点：高速压缩速度和合理的压缩率；支持hadoop native库。

缺点：不支持split；压缩率比gzip要低；hadoop本身不支持，需要安装；linux系统下没有对应的命令。

应用场景：当mapreduce作业的map输出的数据比较大的时候，作为map到reduce的中间数据的压缩格式；或者作为一个mapreduce作业的输出和另外一个mapreduce作业的输入。

4 bzip2压缩

优点：支持split；具有很高的压缩率，比gzip压缩率都高；hadoop本身支持，但不支持native；在linux系统下自带bzip2命令，使用方便。

缺点：压缩/解压速度慢；不支持native。

应用场景：适合对速度要求不高，但需要较高的压缩率的时候，可以作为mapreduce作业的输出格式；或者输出之后的数据比较大，处理之后的数据需要压缩存档减少磁盘空间并且以后数据用得比较少的情况；或者对单个很大的文本文件想压缩减少存储空间，同时又需要支持split，而且兼容之前的应用程序（即应用程序不需要修改）的情况。

最后用一个表格比较上述4种压缩格式的特征（优缺点）：

4种压缩格式的特征的比较

压缩格式splitnative压缩率速度是否hadoop自带linux命令换成压缩格式后，原来的应用程序是否要修改

gzip否是很高比较快是，直接使用有和文本处理一样，不需要修改

lzo是是比较高很快否，需要安装有需要建索引，还需要指定输入格式

snappy否是比较高很快否，需要安装没有和文本处理一样，不需要修改

bzip2是否最高慢是，直接使用有和文本处理一样，不需要修改

二、压缩模式设置

TEXTFILE

--创建一个表，格式为文本文件：

CREATE EXTERNAL TABLE student_text (id STRING, name STRING) 

ROW FORMAT DELIMITED  

FIELDS TERMINATEDBY ','  

LINES TERMINATEDBY '\n' 

STOREDAS TEXTFILE;

--导入数据到此表中,将启动MR任务

INSERT OVERWRITE TABLE student_text SELECT * FROM student;

可查看到生成的数据文件的格式为非压缩的文本文件：

hdfs dfs -cat /user/hive/warehouse/student_text/000000_0 



1001810081,cheyo 

1001810082,pku 

1001810083,rocky 

1001810084,stephen 

2002820081,sql 

2002820082,hello 

2002820083,hijj 

3001810081,hhhhhhh 

3001810082,abbbbbb

文本文件,DEFLATE压缩

--创建一个表，格式为文件文件：

CREATE TABLE student_text_def (id STRING, name STRING) 

ROW FORMAT DELIMITED 

FIELDS TERMINATEDBY ',' 

LINES TERMINATEDBY '\n' 

STOREDAS TEXTFILE;

--设置压缩类型为Gzip压缩

SET hive.exec.compress.output=true; 

SET mapred.output.compress=true; 

SET mapred.output.compression.codec=org.apache.hadoop.io.compress.DefaultCodec;  

--导入数据： 

INSERT OVERWRITE TABLE student_text_def SELECT * FROM student; 

--查看数据 

SELECT * FROM student_text_def;

查看数据文件,可看到数据文件为多个.deflate文件。