Spark读取压缩文件性能分析

最新推荐文章于 2025-09-12 03:16:47 发布

原创最新推荐文章于 2025-09-12 03:16:47 发布 · 2.6k 阅读

7 ·

CC 4.0 BY-SA版权

文章标签：

#Spark #压缩 #gzip

大数据专栏收录该内容

8 篇文章

订阅专栏

本文对比分析了Spark处理不同压缩格式文件的效率，包括GZIP、BZIP2、LZO、LZ4、SNAPPY等，通过实验数据展示了各种格式在文件大小、运行时间和并发数上的表现，为大数据处理提供了优化建议。

引言

HDFS上分布式文件存储，成为大数据平台首选存储平台。而Spark往往以HDFS文件为输入，为保持兼容性，Spark支持多种格式文件读取，大数据场景下，性能瓶颈往往是IO，而不是CPU算力，所以对文件的压缩处理成为了很必要的手段。Spark为提供兼容性，同时支持多种压缩包直接读取，方便于用户使用，不用提前对压缩格式处理，但各种压缩格式各有优缺点，若不注意将导致Spark的能力无法发挥出来。故，对Spark计算压缩文件做一个分析。

支持的压缩格式

首先来看一下Spark读取HDFS文件常用的压缩格式：

存储格式	优点	缺点	是否可切分	建议用途	备注
GZIP	压缩率高	CPU使用率高，压缩慢	否	冷数据
BZIP2	压缩率高，部分文件格式甚至比GZIP高	CPU使用率高，压缩慢，HBase不支持	是	冷数据
LZO	压缩快	压缩率低，原生不支持，需要额外安装	是	热数据	因为使用GPL协议，所以一般不自带，有条件可提前分割文件，适合于MR任务
LZ4	压缩快，解压速度比LZO更快	压缩率比LZO略低	否	热数据
SNAPPY	压缩快，普遍比LZO更快，原生支持	压缩率低	否	热数据	HDFS使用最广泛的压缩格式，但不可拆分。但是在Container file format里面的Snappy块是可以拆分的，例如Avro和SequenceFile。Snappy一般也需要和一个Container file format一起使用^[1]

[1] :Avro和SequenceFile为另外两种压缩格式，一般结合Snappy做分块压缩，但目前没有找到相关资料。

执行对比分析

实验数据：同一个文件包，json格式文件数据
处理逻辑：增加列，然后发送到kafka中。
DAG逻辑划分：两个job（read动作一个job，foreach动作一个job），每个job下面各一个stage，每个stage下面task若干
程序执行参数：–master yarn --deploy-mode client --executor-cores 4 --executor-memory 4G --num-executors 4
Spark逻辑代码：

df = spark.read.json("\data\2019\08\23\*****.json")
udf_parse_os = udf(parse_os, StringType())
df = df.select(df.ip, df.port, df.data, df.host, udf_parse_os(df.data).alias("os"))
df.foreachPartition(send_message_helper)

非压缩文件

文件大小：33.7GB
运行时间：9min

read阶段：

在这里插入图片描述
可以看到所有节点都在读取，分布式读取，速度很快。