如何应对SparkSQL DataFrame保存到hdfs时出现的过多小文件问题

最新推荐文章于 2023-04-11 20:54:02 发布

原创最新推荐文章于 2023-04-11 20:54:02 发布 · 8.9k 阅读

0 ·

CC 4.0 BY-SA版权

Spark 专栏收录该内容

11 篇文章

订阅专栏

本文介绍如何通过调整Spark DataFrame的分区数来避免在HDFS上产生过多的小文件，特别是当进行多线程并行写入操作时。文章提供了针对不同Spark版本的具体实现方法。

原因就不解释了，总之是因为多线程并行往hdfs写造成的（因为每个DataFrame/RDD分成若干个Partition，这些partition可以被并行处理）。

其结果就是一个存下来的文件，其实是hdfs中一个目录，在这个目录下才是众多partition对应的文件，最坏的情况是出现好多size为0的文件。

如果确实想避免小文件，可以在save之前把DaraFrame的partition设为0： (当然，这必然影响程序效率)

1. 如果是Spark 1.3.x, 可以调用函数如下：

【DataFrame2】=【DataFrame1】.repartition(1)；

【DataFrame2】.save(path);

2. 如果是Spark 1.4.0, 可以调用如下函数：

【DataFrame2】=【DataFrame1】.coalecse(1, false)

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

jsky_studio

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

【硬刚大数据之面试篇】2021年从零到大数据专家面试篇之SparkSQL篇

微信搜：import_bigdata，大数据领域硬核原创作者

07-28

1731

????欢迎关注博客主页：https://blog.youkuaiyun.com/u013411339 ????欢迎点赞 ???? 收藏 ⭐留言 ???? ，欢迎留言交流！ ????本文由【王知无】原创，首发于优快云博客！ ????本文首发优快云论坛，未经过官方和本人允许，严禁转载！本文是对《【硬刚大数据之学习路线篇】2021年从零到大数据专家的学习指南(全面升级版)》的面试部分补充。硬刚大数据系列文章链接： 2021年从零到大数据专家的学习指南(全面升级版) 2021年从零到大数据专家面试篇之H

掌握大数据领域Spark SQL的高级用法

最新发布

AI天才研究院

04-28

812

在大数据处理领域，Spark SQL已成为企业级数据平台的核心组件。随着数据规模从TB级向EB级跨越，传统SQL引擎在复杂查询响应、半结构化数据处理、跨数据源协同等场景下逐渐显现瓶颈。本文聚焦Spark SQL的高级用法核心架构（Catalyst优化器、Tungsten执行引擎）的深度解析复杂查询（窗口函数、分层查询、嵌套结构处理）的实现与优化性能调优（内存管理、数据倾斜解决、自适应查询执行）的工程实践数据湖集成（Delta Lake、Hudi）与实时分析的前沿应用。

参与评论您还未登录，请先登录后发表或查看评论

spark sql合并小文件_Spark SQL 小文件问题产生原因分析以及处理方案

weixin_39985365的博客

12-17

836

在生产中，无论是通过SQL语句或者Scala/Java等代码的方式使用Spark SQL处理数据，在Spark SQL写数据时，往往会遇到生成的小文件过多的问题，而管理这些大量的小文件，是一件非常头疼的事情。大量的小文件会影响Hadoop集群管理或者Spark在处理数据时的稳定性：1.Spark SQL写Hive或者直接写入HDFS，过多的小文件会对NameNode内存管理等产生巨大的压力，会影响...

spark的DataFrame数据保存到hdfs产生过多小文件该怎么解决

love_zy0216的博客

04-24

5090

写入过程产生过多小文件是因为多线程并行向hdfs写入造成的，所以可以再save之前设置dataframe的partitions设置为0，但是这样设置一定会影响spark写入的性能 val result: DataFrame = WorkOperator ( dataFrame, sparkSession ).controller ( operator ) //df保存到hdfs ...

运行spark作业，hdfs文件越来越大问题解决

mn_kw的博客

08-24

2162

我们在运行spark作业的时候，发现hdfs中的数据越来越多，经查看是我们spark-history文件目录下的东西，这个时候就是我们在配置的时候，没有配置spark-history文件过段时间自动删除，我们应该在spark-default.conf中加入以下参数 spark.history.fs.cleaner.enabled 默认为false 这个参数指定history-s...

sparksql保存数据常见操作

weixin_43705952的博客

04-22

550

sparksql保存数据操作 import org.apache.spark.SparkConf import org.apache.spark.sql.{DataFrame, SparkSession} //todo:sparksql可以把结果数据保存到不同的外部存储介质中 object SaveResult { def main(args: Array[String]): Unit =...

spark写入hadoop为空

qq_37076742的博客

09-29

562

这个主要是因为我使用的本地开发，然后是使用的阿里的服务器，导致写入到hdfs的时候文件写入进去了，但是一直写的都是空文件，

解决sparksql小文件的靠谱方案

03-21

可能是在数据写入时，比如使用INSERT语句或者保存DataFrame时，分区过多或者每个分区的数据量过少，导致每个分区生成多个小文件。另外，如果数据源本身就有很多小文件，比如从Hive迁移过来的数据，或者流处理中每个...

Hive表小文件合并方法总结

u010585659的博客

10-19

4467

Hive表小文件合并方法总结 Hive表小文件产生原因

Spark编程案例——DataFrame

weixin_44804248的博客

05-29

949

Spark SQL 1、相应于Hive: SQL —> MapReduce 2、底层依赖RDD： SQL —> RDD 一、Spark SQL基础 1、什么是Spark SQL？参考官网 2、核心概念：DataFrame（表）= Schema（表结构） + Data（表数据）（*）就是表，是Spark SQL对结构化数据的抽象 ...

Spark学习——DataFrame清洗HDFS日志并存入Hive中

雷神乐乐的博客

04-11

1140

DataFrame清洗HDFS日志并存入Hive中

spark 性能调优项目中调节并行度

chixushuchu的博客

12-15

687

spark新能优化之提高并行度

weixin_34292959的博客

07-13

467

实际上Spark集群的资源并不一定会被充分利用到，所以要尽量设置合理的并行度，来充分地利用集群的资源。才能充分提高Spark应用程序的性能。 Spark会自动设置以文件作为输入源的RDD的并行度，依据其大小，比如HDFS，就会给每一个block创建一个partition，也依据这个设置并行度。对于reduceByKey等会发生shuffle的操作，就使用并行度最大的父RDD的并行度即可。可以...

大数据面试题——Spark的Shuffle配置调优（八）

qq_41544550的博客

10-24

893

1、Shuffle优化配置 - spark.shuffle.file.buffer 默认值：32k 参数说明：该参数用于设置shuffle write task的BufferedOutputStream的buffer缓冲大小。将数据写到磁盘文件之前，会先写入buffer缓冲中，待缓冲写满之后，才会溢写到磁盘。调优建议：如果作业可用的内存资源较为充足的话，可以适当增加这个参数的大小（比如64k），从而减少shuffle write过程中溢写磁盘文件的次数，也就可以减少磁盘IO次数，进而提...

spark---dataFrame保存成表和csv文件

weixin_44280356的博客

12-29

1433

【代码】spark---dataFrame保存成表和csv文件。

sparksql dataframe变成csv保存_Spark SQL

weixin_39945475的博客

11-21

1115

一、概述spark sql 是用于操作结构化数据的程序包通过spark sql ，可以使用SQL 或者 HQL 来查询数据，查询结果以Dataset/DataFrame 的形式返回它支持多种数据源，如Hive 表、Parquet 以及 JSON 等它支持开发者将SQL 和传统的RDD 变成相结合Dataset：是一个分布式的数据集合它是Spark 1.6 中被添加的新接口它提供了RDD的优点与Sp...

SparkSql之数据的读取和保存

石榴姐yyds

08-19

6019

目录 0 引言 1 加载数据 2 保存数据 3 Parquet 4 JSON 4 CSV 5 MySQL 6 Hive 0 引言 SparkSQL提供了通用的保存数据和数据加载的方式。这里的通用指的是使用相同的API，根据不同的参数读取和保存不同格式的数据，SparkSQL默认读取和保存的文件格式为parquet。 1 加载数据 spark.read.load 是加载数据的通用方法 scala> spark.read. csv format jdbc json

Spark Dataframe 的创建方法与存储

Code_LT的博客

02-19

3304

创建方法一、通过 toDF()函数创建 // sc is an existing SparkContext. val sqlContext = new org.apache.spark.sql.SQLContext(sc) // this is used to implicitly convert an RDD or Seq to a DataFrame. cannot be ...

sparksql dataframe处理

10-18

好的，关于 SparkSQL DataFrame 的处理，您有什么具体的问题需要我解答呢？一般来说，DataFrame 是 SparkSQL 中最常用的数据结构之一，它可以看作是一张表格，每一列都有一个名称和数据类型，而每一行则是由这些列组成的记录。在 SparkSQL 中，我们可以使用 DataFrame API 来进行各种数据处理操作，例如过滤、聚合、排序等等。如果您有具体的问题，可以告诉我，我会尽力为您解答。