文件压缩
1. 压缩模式
1.1 为什么要压缩
在Hive中对中间数据或最终数据数据做压缩,是提高数据吞吐量和性能的一种手段。对数据做压缩,可以大量减少磁盘的存储空间,比如基于文本的数据文件, 可以将文件压缩40%或更多,同时压缩后的文件在磁盘间传输和I/O也会大大减少;当然压缩和解压缩也会带来额外的CPU开销,但是却可以节省更多的I /O和使用更少的内存开销。
Hadoop jobs作业,往往是I/O密集型的,而非CPU集型的。数据压缩对I/O密集型的作业带来大大的性能提升,但是如果用户的jobs作业时CPU密集型 的,那么在使用压缩就会降低性能,这就要用户对作业的类型做判断,权衡是否要对数据做压缩。
1.2 压缩模式评价
- 压缩比
压缩比越高,压缩后文件越小,所以压缩比越高越好。 - 压缩时间
越快越好 - 已经压缩的格式文件是否可以再分割
可以分割的格式允许单一文件由多个Mapper程序处理,可以更好的并行化。
1.3 压缩模式对比
- BZip2有最高的压缩比但也会带来更高的CPU开销,Gzip较BZip2次之。如果基于磁盘利用率和I/O考虑,这两个压缩算法都是比较有吸引力的算法。
- LZO和Snappy算法有更快的解压缩速度,如果更关注压缩、解压速度,它们都是不错的选择。LZO和Snappy在压缩数据上的速度大致相当,但Snappy算法在解压速度上要较LZO更快。
- Hadoop的会将大文件分割成HDFS block(默认64MB)大小的splits分片,每个分片对应一个Mapper程序。在这几个压缩算法中 BZip2、LZO、Snappy压缩是可分割的,Gzip则不支持分割。
1.4 常见压缩格式

Hadoop编码/解码器方式,如下表所示

1.5 可分割
【什么是可分割】
在考虑如何压缩那些将由MapReduce处理的数据时,考虑压缩格式是否支持分割是很重要的。考虑存储在HDFS中的未压缩的文件,其大小为1GB,HDFS的块大小为64MB,所以该文件将被存储为16块,将此文件用作输入的MapReduce作业会创建1个输人分片(split,也称为“分块”。对于block,我们统一称为“块”。)每个分片都被作为一个独立map任务的输入单独进行处理。
现在假设,该文件是一个gzip格式的压缩文件,压缩后的大小为1GB。和前面一样,HDFS将此文件存储为16块。然而,针对每一块创建一个分块是没有用的,因为不可能从gzip数据流中的任意点开始读取,map任务也不可能独立于其他分块只读取一个分块中的数据。gzip格式使用DEFLATE来存储压缩过的数据,DEFLATE将数据作为一系列压缩过的块进行存储。问题是,每块的开始没有指定用户在数据流中任意点定位到下一个块的起始位置,而是其自身与数据流同步。因此,gzip不支持分割(块)机制。
在这种情况下,MapReduce不分割gzip格式的文件,因为它知道输入是gzip压缩格式的(通过文件扩展名得知),而gzip压缩机制不支持分割机制。因此一个map任务将处理16个HDFS块,且大都不是map的本地数据。与此同时,因为map任务少,所以作业分割的粒度不够细,从而导致运行时间变长。
2. 压缩算法
2.1 常见的压缩算法

2.2 Hadoop编码/解码

2.3 设置压缩模式参数
2.3.1 Hive中间数据压缩
hive.exec.compress.intermediate
设置为true为激活中间数据压缩功能,在这个阶段,优先选择一个低CPU开销的算法
mapred.map.output.compression.codec
具体的压缩算法的配置参数,SnappyCodec比较适合在这种场景中编解码器,该算法会带来很好的压缩性能和较低的CPU开销
2.3.2 Hive最终数据压缩
hive.exec.compress.output
用户可以对最终生成的Hive表的数据通常也需要压缩
mapred.output.compression.codec
将hive.exec.compress.output参数设置成true后,然后选择一个合适的编解码器,如选择SnappyCodec
2.4 Hadoop压缩
2.4.1 配置压缩参数
mapreduce.output.fileoutputformat.compress 用于输出
mapreduce.map.output.compress用于Mapper程序中间输出
mapreduce.output.fileoutputformat.compress.codec 为输出配置默认的编码解码器
mapreduce.map.output.compress.codec Mapper程序中间输出配置默认的编码解码器
2.4.2 配置压缩方式
打开压缩用于输出,在配置时添加下面几行:
Configuration cond = new Configuration();
Jon job = new Job(conf);
FileOutput.setCompressOutput(job,true);
FileOutput.setOutputCompressionClass(job,GzipCodec.class);
使用Snappy的编码解码器
FileOutputFormat.setOutputCompressionClass(job,SnappyCodec.class)
打开压缩用于Mapper程序的中间输出,在配置时我们添加下面的几行
Configuration conf = new Configuration();
conf.setBoolean("mapreduce.map.output.compress",true);
conf.setClass("mapreduce.map.output.compress.codec",GzipCodec.class,CompressionCodec.class);
FileOutput.setCompressOutput(job,true);
FileOutput.setOutputCompressionClass(job,GzipCodec.class);
Job job = new Job(conf)
3.文件存储格式
3.1 行式存储
3.1.1 什么是行存储
查询满足条件的一整行数据的时候,列存储则需要去每个聚集的字段找到对应的每个列的值,行存储只需要找到其中一个值,其余的值都在相邻地方,所以此时行存储查询的速度更快
3.1.2 HDFS块内行存储

3.2 列式存储
3.2.1什么是列存储
因为每个字段的数据聚集存储,在查询只需要少数几个字段的时候,能大大减少读取的数据量;每个字段的数据类型一定是相同的,列式存储可以针对性的设计更好的设计压缩算法
3.2.2HDFS块内列存储

4. Hive中的文件
4.1 TEXTFILE
Hive默认格式,数据不做压缩,磁盘开销大,数据解析开销大。
可结合Gzip、Bzip2、Snappy等使用(系统自动检查,执行查询时自动解压),但使用这种方式,hive不会对数据进行切分,从而无法对数据进行并行操作
4.2 SEQUENCEFILE
介绍
SequenceFile是Hadoop API 提供的一种二进制文件,它将数据以<key,value>的形式序列化到文件中。这种二进制文件内部使用Hadoop 的标准的Writable 接口实现序列化和反序列化。它与Hadoop API中的MapFile 是互相兼容的。Hive 中的SequenceFile 继承自Hadoop API 的SequenceFile,不过它的key为空,使用value 存放实际的值, 这样是为了避免MR 在运行map 阶段的排序过程
文件结构图

Header通过头文件格式

Block-Compressed SequenceFile格式

4.3 RCFILE
RCFile是Hive推出的一种专门面向列的数据格式。 它遵循“先按行划分,再垂直划分”的设计理念。
RCFile结合行存储查询的快速和列存储节省空间的特点:首先,RCFile保证同一行的数据位于同一节点,因此元组重构的开销很低;其次,像列存储一样,RCFile能够利用列维度的数据压缩,并且能跳过不必要的列读取

4.4 ORCFILE
hive/spark都支持这种存储格式,它存储的方式是采用数据按照行分块,每个块按照列存储,其中每个块都存储有一个索引。特点是数据压缩率非常高
4.5 PAEQUET
Parquet也是一种行式存储,同时具有很好的压缩性能;同时可以减少大量的表扫描和反序列化的时间
4.6 比较
磁盘空间占用大小比较
orc<parquet<textfile
查询语句运行时间大小比较
orc<parquet<textfile
4.7 总结
- TextFile默认格式,加载速度最快,可以采用Gzip进行压缩,压缩后的文件无法split,即并行处理
- SequenceFile压缩率最低,查询速度一般,将数据存放到sequenceFile格式的hive表中,这时数据就会压缩存储。三种压缩格式NONE,RECORD,BLOCK。是可分割的文件格式
- RCfile压缩率最高,查询速度最快,数据加载最慢
- 相比TEXTFILE和SEQUENCEFILE,RCFILE由于列式存储方式,数据加载时性能消耗较大,但是具有较好的压缩比和查询响应。数据仓库的特点是一次写入、多次读取,因此,整体来看,RCFILE相比其余两种格式具有较明显的优势
- 在hive中使用压缩需要灵活的方式,如果是数据源的话,采用RCFile+bz或RCFile+gz的方式,这样可以很大程度上节省磁盘空间;而在计算的过程中,为了不影响执行的速度,可以浪费一点磁盘空间,建议采用RCFile+snappy的方式,这样可以整体提升hive的执行速度。至于lzo的方式,也可以在计算过程中使用,只不过综合考虑(速度和压缩比)还是考虑snappy适宜
文件类型
1. TextFile
1.1 非压缩
(1)创建表
CREATE TABLE student(
id INT,
name STRING,
age INT)
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'
STORED AS TEXTFILE;
(2)原始数据
1001 shiny 23
1002 cendy 22
1003 angel 23
1009 ella 21
1012 eva 24
(3)加载数据
load data local inpath '/home/tyhawk/student.txt' into table student;
1.2 DEFLATE压缩
(1)创建表
CREATE TABLE student_deflate(
id INT,
name STRING,
age INT)
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'
LINES TERMINATED BY '\n' STORED AS TEXTFILE;
(2)设置压缩类型
SET hive.exec.compress.output=true;
SET mapred.output.compress=true;
SET mapred.output.compression.codec=org.apache.hadoop.io.compress.DefaultCodec;
(3)导入数据
insert overwrite table student_deflate select * from student;
(4)查看数据
select * from student_defalte;
(5)如何查看.deflate
hadoop fs -text file.deflate> your file directory
1.3 GZIP压缩
(1)创建表
CREATE TABLE student_gzip(
id INT,
name STRING,
age INT)
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'
LINES TERMINATED BY '\n' STORED AS TEXTFILE;
(2)设置压缩类型
SET hive.exec.compress.output=true;
SET mapred.output.compress=true;
SET mapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec;
(3)导入数据
insert into table student_gzip select * from student;
(4)查看数据
select * from student_gzip;
1.4 BZIP2压缩
(1)创建表
CREATE TABLE student_bzip2(
id INT,
name STRING,
age INT)
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'
LINES TERMINATED BY '\n' STORED AS TEXTFILE;
(2)设置压缩类型
SET hive.exec.compress.output=true;
SET mapred.output.compress=true;
SET mapred.output.compression.codec=org.apache.hadoop.io.compress.BZip2Codec;
(3)导入数据
insert into table student_bzip2 select * from student;
(4)查看数据
select * from student_bzip2;
1.5 LZ4压缩
(1)创建表
CREATE TABLE student_lz4(
id INT,
name STRING,
age INT)
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'
LINES TERMINATED BY '\n' STORED AS TEXTFILE;
(2)设置压缩类型
SET hive.exec.compress.output=true;
SET mapred.output.compress=true;
SET mapred.output.compression.codec=org.apache.hadoop.io.compress.Lz4Codec;
(3)导入数据
insert into table student_lz4 select * from student;
(4)查看数据
select * from student_lz4;
1.6 Snappy压缩
(1)创建表
CREATE TABLE student_snappy(
id INT,
name STRING,
age INT)
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'
LINES TERMINATED BY '\n' STORED AS TEXTFILE;
(2)设置压缩类型
SET hive.exec.compress.output=true;
SET mapred.compress.map.output=true;
SET mapred.output.compress=true;
SET mapred.output.compression=org.apache.hadoop.io.compress.SnappyCodec;
SET mapred.output.compression.codec=org.apache.hadoop.io.compress.SnappyCodec;
SET io.compression.codecs=org.apache.hadoop.io.compress.SnappyCodec;
(3)导入数据
insert into table student_snappy select * from student;
(4)查看数据
select * from student_snappy;
2. SEQUENCEFILE
2.1 非压缩
(1)创建表
CREATE TABLE student_seq(
id INT,
name STRING,
age INT)
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'
LINES TERMINATED BY '\n' STORED AS SEQUENCEFILE;
(2)导入数据
insert into table student_seq select * from student;
(3)查看数据
select * from student_seq;
2.2 DEFLATE压缩
(1)创建表
CREATE TABLE student_seq_deflate(
id INT,
name STRING,
age INT)
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'
LINES TERMINATED BY '\n' STORED AS SEQUENCEFILE;
(2)设置压缩类型
SET hive.exec.compress.output=true;
SET mapred.output.compress=true;
SET mapred.output.compression.codec=org.apache.hadoop.io.compress.DefaultCodec;
(3)导入数据
```sql
insert into table student_seq_deflate select * from student;
2.3 GZIP压缩
(1)创建表
CREATE TABLE student_seq_gzip(
id INT,
name STRING,
age INT)
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'
LINES TERMINATED BY '\n' STORED AS SEQUENCEFILE;
(2)设置压缩类型
SET hive.exec.compress.output=true;
SET mapred.output.compress=true;
SET mapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec;
(3)导入数据
insert into table student_seq_gzip select * from student;
(4)查看数据
select * from student_seq_gzip;
3. RCFILE
3.1 GZIP压缩
(1)创建表
CREATE TABLE student_rcfile_gzip(
id INT,
name STRING,
age INT)
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'
LINES TERMINATED BY '\n' STORED AS RCFILE;
(2)设置压缩类型
SET hive.exec.compress.output=true;
SET mapred.output.compress=true;
SET mapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec;
(3)导入数据
insert into table student_rcfile_gzip select * from student;
(4)查看数据
select * from student_rcfile_gzip;
4. ORCFILE
4.1 ZLIB压缩
(1)创建表
CREATE TABLE student_orcfile_zlib(
id INT,
name STRING,
age INT)
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'
LINES TERMINATED BY '\n' STORED AS ORCFILE TBLPROPERTIES("orc.compress"="ZLIB");
(2)导入数据
insert into table student_orcfile_zlib select * from student;
(3)查看数据
select * from student_orcfile_zlib;
4.2 SNAPPY压缩
(1)创建表
CREATE TABLE student_orcfile_snappy(
id INT,
name STRING,
age INT)
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'
LINES TERMINATED BY '\n' STORED AS ORCFILE TBLPROPERTIES("orc.compress"="SNAPPY");
(2)导入数据
insert into table student_orcfile_snappy select * from student;
(3)查看数据
select * from student_orcfile_snappy;
5. Parquet
5.1 SNAPPY压缩
(1)创建表
CREATE TABLE student_parquet_snappy(
id INT,
name STRING,
age INT)
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'
LINES TERMINATED BY '\n' STORED AS PARQUET;
(2)设置压缩类型
SET hive.exec.compress.output=true;
SET mapred.compress.map.output=true;
SET mapred.output.compress=true;
SET mapred.output.compression=org.apache.hadoop.io.compress.SnappyCodec;
SET mapred.output.compression.codec=org.apache.hadoop.io.compress.SnappyCodec;
SET io.compression.codecs=org.apache.hadoop.io.compress.SnappyCodec;
(3)导入数据
insert into table student_parquet_snappy select * from student;
(4)查看数据
select * from student_parquet_snappy;
6. AVRO
6.1 SNAPPY压缩
(1)创建表
CREATE TABLE student_avro_snappy(
id INT,
name STRING,
age INT)
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'
LINES TERMINATED BY '\n' STORED AS AVRO;
(2)设置压缩类型
SET hive.exec.compress.output=true;
SET mapred.compress.map.output=true;
SET mapred.output.compress=true;
SET mapred.output.compression=org.apache.hadoop.io.compress.SnappyCodec;
SET mapred.output.compression.codec=org.apache.hadoop.io.compress.SnappyCodec;
SET io.compression.codecs=org.apache.hadoop.io.compress.SnappyCodec;
(3)导入数据
insert into table student_avro_snappy select * from student;
(4)查看数据
select * from student_avro_snappy;
【文章参考】
https://blog.youkuaiyun.com/an342647823/article/details/45094539
https://blog.youkuaiyun.com/xsdxs/article/details/53152599
https://blog.youkuaiyun.com/shayuwei/article/details/88795325
1490

被折叠的 条评论
为什么被折叠?



