使用COALESCE和REPARTITION解决SPARK SQL（hadoop）小文件过多的问题

最新推荐文章于 2024-08-09 12:09:29 发布

原创

最新推荐文章于 2024-08-09 12:09:29 发布 · 1.2k 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#hadoop #spark #sql #大数据 #hive

背景

最近在做数仓宽表开发时，发现某些表的在hadoop（命令：hdfs dfs -ls）上小文件特别多，整体数据量不大，每个分区却有几百个小文件。而小文件太多带来的主要影响是：

1、占用过多的nameNode 资源，影响hadoop集群稳定性。一个小文件需要在nameNode中维护一份元数据（目录、大小、权限等信息），占用的资源是 150字节（Byte），100个小文件则占用 14.6KB。如果每天的数据都存在新的分区里，久而久之小文件会越来越多，所造成的内存压力也会越来越大。而NameNode很多情况下是单节点，且所有元数据加载在内存中，即使做了HA，所有的元数据也会存贮在一台机器上。

2、对计算性能产生影响。spark在进行计算时，每个分区都会启动一个task进行并行计算，而一个小文件算是一个分区。并行计算可以提高工作效率，但是却会占用更多的计算资源。每个小文件启动一个task，效率上肯定是不划算的。

因此必须找到问题原因，并加以解决。

产生原因

通过对这几个表进行观察，发现通用的现象是在sql中大量使用了union all。由于union 需要去重，效率比较低，因此基于hadoop系大数据组件进行开发时，推荐使用union all。举个简单例子：

with 
tmp as (
    select * from aa
    union all

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

大壮001

关注关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

Hive 动态分区小文件过多问题优化

石榴姐yyds

04-08

360

动态分区易产生海量小文件。假设输入数据1TB，启用2000 Mapper任务且每个任务生成100分区，则总文件数为2000×100=200,000，远超。

掌握大数据领域Spark SQL的高级用法

AI天才研究院

04-28

830

在大数据处理领域，Spark SQL已成为企业级数据平台的核心组件。随着数据规模从TB级向EB级跨越，传统SQL引擎在复杂查询响应、半结构化数据处理、跨数据源协同等场景下逐渐显现瓶颈。本文聚焦Spark SQL的高级用法核心架构（Catalyst优化器、Tungsten执行引擎）的深度解析复杂查询（窗口函数、分层查询、嵌套结构处理）的实现与优化性能调优（内存管理、数据倾斜解决、自适应查询执行）的工程实践数据湖集成（Delta Lake、Hudi）与实时分析的前沿应用。

参与评论您还未登录，请先登录后发表或查看评论

1 条评论

菜菜的大数据开发之路 2024.12.03
本文灰常得不错(￣ˇ￣)，博主多大了? 这么厉害！(=￣ω￣=)

spark小文件过多

a13705510005的博客

08-13

3772

什么是小文件？生产上，我们往往将Spark SQL作为Hive的替代方案，来获得SQL on Hadoop更出色的性能。因此，本文所讲的是指存储于HDFS中小文件，即指文件的大小远小于HDFS上块（dfs.block.size）大小的文件。 小文件问题的影响一方面，大量的小文件会给Hadoop集群的扩展性和性能带来严重的影响。NameNode在内存中维护整个文件...

Spark SQL中coalesce()函数

m0_69097184的博客

12-12

2074

在Spark SQL中，`coalesce()`函数用于从给定列中选择非空值。它接受一个或多个列作为参数，并返回第一个非空值。在数据清洗和预处理过程中，`coalesce()`函数非常有用，特别是在处理缺失值或空值时。

Spark-SQL处理小文件问题

qq_14950717的博客

04-03

3772

一、小文件产生的原因 1、在使用spark sql处理数据的过程中，如果有shuffle产生，依赖于spark.sql.shuffle.partitions配置信息，默认为200，当处理的数据量比较大时，通常会把该值调大，以避免单个分区处理的数据太大出现异常或者拖慢整个任务的执行时间。 2、如果没有shuffle产生，文件的数量依赖于数据源的文件数量以及文件是否可切分等特性决定任务的并发度即tas...

sparksql参数调优

MDZ_1122333322的博客

07-29

2180

所以就会出现，即使你设置了spark.sql.files.ignoreMissingFiles的情况下，仍然报FileNotFoundException的情况，异常栈如下, 可以看到这里面走到了HadoopRDD，而且后面是org.apache.hadoop.hive.ql.io.parquet.read.ParquetRecordReaderWrappe可见是查询一张hive表。上面的两个参数在分区表情况下是针对分区路径存在的情况下，分区路径下面的文件不存在或者损坏的处理。

sql函数：coalesce()

haohaoxuexiyai的博客

03-26

555

转载自：https://blog.youkuaiyun.com/weixin_38750084/article/details/83034294 COALESCE()函数主流数据库系统都支持COALESCE()函数，这个函数主要用来进行空值处理，其参数格式如下： COALESCE ( expression,value1,value2……,valuen) COALESCE()函数的第一个参数expression为待检测的表达式，而其后的参数个数不定。 COALESCE()函数将会返回包括expression在内的所有参

Spark SQL空值处理函数 coalesce

修破立生

01-21

5977

函数说明 coalesce这个英文单词是联合，合并的意思。用于字段空值的处理，譬如，希望把空值转为0。使用方法 coalesce(field1, value)：意思是如果field1不为null, 则返回field1本身的值，否则，返回value；如： select coalesce(field1, 0), 当field1为null, 则返回0。 coalesce可以从左到右依次判定多个字段的值，如下： coalesce(field1, field2, field3, value): 字段的个

使用Spark sql 合并 Flink 写Hive表的小文件

03-11

2626

1.背景 Flink 1.11支持写直接写入Hive后，流批一体进一步实现。虽然可以通过调整sink.shuffle-by-partition.enable和checkpoint时间间隔的方式尽可能地减少Flink产生的小文件，但是即使Flink 1.12加入了自动合并小文件的功能，也无法完全避免小文件的产生。所以需要定期对Flink 写hive表的小文件进行合并。 2.Hive Tez 方式合并小文件 set hive.exec.dynamic....

spark入门学习：spark SQL

qq_41358574的博客

08-09

1188

Spark SQL是用于结构化数据处理的Spark模块。与基本的Spark RDD API不同，Spark SQL提供的接口为Spark提供了有关数据结构和正在执行的计算的更多信息。在内部，Spark SQL使用这些额外的信息来执行额外的优化。与Spark SQL交互的方式有多种，包括SQL和Dataset API。计算结果时，使用相同的执行引擎，与您用于表达计算的API/语言无关。为什么要有SPARK SQL:1）发展历史。

Spark sql 利用COALESCE()函数full join 两张DataFrame

Buevara的博客

08-19

2387

Spark SQL 小文件问题处理

chbxw

04-02

1564

此外，Spark在处理任务时，一个分区分配一个task进行处理，多个分区并行处理，虽然并行处理能够提高处理效率，但不是意味着task数越多越好。如果数据量不大，过多的task运行反而会影响效率。上述只是给出3种常见的解决办法，并且要结合实际用到的技术和场景去具体处理，比如对于HDFS小文件过多，也可以通过生成HAR 文件或者Sequence File来解决。2.容易导致task数过多，如果超过参数spark.driver.maxResultSize的配置（默认1g），会抛出类似如下的异常，影响任务的处理。

Spark SQL 小文件问题

Tate的博客

08-24

3303

Spark SQL 小文件问题1、 小文件现象2、小文件产生的原因3、小文件的危害4、如何解决小文件问题4.1 spark-sql adaptive框架解决小文件问题4.2 举例 1、 小文件现象文件大小只有几KB，数量有4800个。 2、小文件产生的原因在使用spark sql处理数据的过程中，如果有shuffle产生，依赖于spark.sql.shuffle.partitions配置信息，默认为200，当处理的数据量比较大时，通常会把该值调大，以避免单个分区处理的数据太大出现异常或者拖慢整个任务

sparksql 大小写_Spark 2.4.0如何优雅地解决sparksql小文件过多的问题

weixin_39879122的博客

12-23

382

在使用SparkSql进行项目开发的过程，往往会碰到一个比较头疼的问题，由于SparkSql的默认并行度是200，当sql中包含有join、group by相关的shuffle操作时，会产生很多小文件；从集群优化的角度来说，太多的小文件对NameNode的压力比较大，而且太多的小文件对后续使用该表进行计算时会启动很多不必要的maptask，任务耗时高。因此，需要对小文件问题进行优化。在Datase...

spark coalesce

dataastron的博客

05-03

687

Cities, if unrestricted, tend to coalesce into bigger and bigger conurbations. 如果不加限制，城市往往会联合发展成越来越大的集合城市。来自柯林斯例句 3. Gas bubbles coalesce to grow as they rise. 气泡在上升中聚集成长. 来自辞典例句 4. Particles do not...

sparksql减少输出数据中的小文件数量

需求是无耻的

11-30

9100

由于项目中开发用到sparksql ，将一个大表的数据查询后插入到另一种表中，此时数据令也不是太大，但是产生了200多个小文件，占用namenode资源，为了改善该情况使用，将hive中的表加载为一个df，然后重新分区+缓存+注册为临时表，在进行查询，插入操作，此时文件为20个关键代码如下： ........... val aDF = hiveContext.

sparksql实现repartition算子效果

weixin_42450619的博客

05-09

422

sparksql实现repartition算子效果

Spark SQL小文件问题解决方案

雾岛与鲸的博客

12-10

5722

Spark SQL小文件 小文件是指文件大小显著小于hdfs block块大小的的文件。过于繁多的小文件会给HDFS带来很严重的性能瓶颈，对任务的稳定和集群的维护会带来极大的挑战。由于Spark本身并不支持小文件合并功能，小文件问题日益突出。 Spark为什么会产生小文件 Spark生成的文件数量直接取决于RDD里partition的数量和表分区数量。注意这里的两个分区概念并不相同，RDD的分区与任务并行度相关，而表分区则是Hive的分区数目。生成的文件数目一般是RDD分区数和表分区的乘积。因此，当任务并

spark coalesce java_Spark SQL 查询中 Coalesce 和 Repartition 暗示（Hint）

weixin_33973572的博客

03-02

671

如果你使用 coalesce 或 repartition 来修改程序的并行度： val data = sc.newAPIHadoopFile(xxx).coalesce(2).map(xxxx)或val data = sc.newAPIHadoopFile(xxx).repartition(2).map(xxxx)val df = spark.read.json("/user/iteblog/js...

如何在 hive on Spark 中合并小文件 或解决 Spark 小文件问题

使用COALESCE和REPARTITION解决SPARK SQL（hadoop） 小文件过多的问题

背景

产生原因

1 条评论

使用COALESCE和REPARTITION解决SPARK SQL（hadoop）小文件过多的问题