Spark读取小文件调优参数

最新推荐文章于 2024-07-29 20:37:45 发布

L4mbert

最新推荐文章于 2024-07-29 20:37:45 发布

阅读量1.1k

点赞数

分类专栏： Hadoop Hive Spark大数据文章标签： spark hive big data

本文链接：https://blog.youkuaiyun.com/Christopher_L1n/article/details/120960433

版权

Spark读取小文件调优参数

# 每个文件只有514B
hadoop fs -count /user/hive/warehouse/small_files_orc/date=20211024
1 16 8420 /user/hive/warehouse/small_files_orc/date=20211024

验证的代码：

package com.lambert.examples

import org.apache.spark.SparkConf
import org.apache.spark.sql.SparkSession
import org.apache.spark

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

L4mbert

关注关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

spark小文件合并

YUYUYUWW的博客

01-10

1869

小文件合并

Spark调优—参数调优

weixin_44077750的博客

01-08

3316

spark调优—参数调优

参与评论您还未登录，请先登录后发表或查看评论

Spark 的小文件读取

weixin_59295776的博客

11-23

860

Spark是如何读取大量小文件的

sijiwang95的博客

02-19

505

Spark是如何读取大量小文件的

Spark Job写文件个数的控制以及小文件合并的一个优化

半日闲的博客

04-12

2896

在大数据领域，平台小文件治理一直是一个非常重要的问题。我司大佬在Spark平台里，在向目标表中增加一个Shuffle，然后在Reduce端合并数据，以实现将小文件合并成大文件，来减少平台中的小文件。我司还对单个任务写HDFS文件个数做了限制，同时限制了单个Task 和单次Job 可写的HDFS个数限制。通过引入额外Shuffle对写入数据进行合并最终实现效果如下 == Optimized Logical Plan == CreateDataSourceTableAsSelectComman

Hive on Spark的小文件设置参数

qq_43688472的博客

07-03

1290

因此Spark官网建议的设置原则是，设置该参数为num-executors * executor-cores的2~3倍较为合适，比如Executor的总CPU core数量为300个，那么设置1000个task是可以的，此时可以充分地利用Spark集群的资源。参数调优建议：如果Spark作业中的RDD持久化操作较少，shuffle操作较多时，建议降低持久化操作的内存占比，提高shuffle操作的内存占比比例，避免shuffle过程中数据过多时内存不够用，必须溢写到磁盘上，降低了性能。

spark常用参数调优

weixin_43597208的博客

07-29

1335

spark常用参数调优

Spark读取JDBC调优

03-08

1513

Spark读取JDBC调优

【Spark深入学习 -14】Spark应用经验与程序调优

2401_84166376的博客

04-28

830

机器硬件（如磁盘的选择，SATA盘还是SAS盘，磁盘RAID方式等）、网络（千兆网卡还是万兆网卡，网络峰值期间的带宽、吞吐、网络延迟、网络抖动，很多时候网络问题导致各种莫名问题，举个真实的例子，公司网线被老鼠咬了，导致网络时而可以，时而不行，鬼知道是什么问题，让人抓狂）、操作系统（操作系统的稳定性，内核版本的选择，非常重要，还有一些配置策略得和hadoop生态吻合）。可以看出来，一共有2个stage，1个stage包含8个task，一个包含2个task，先跑8个的，再跑2个的，一个14秒，一个0.1秒。

Spark 读取多个小文件

Silence的博客

03-16

9380

写这篇文章前并没有学到多少东西，只是遇到了一些问题，放在这里希望能得到解答。谢谢我想从文件夹下多个文件中读数据，也就是时读取每一个文件中含有“CDR”的行，文件的内容时这样的：我是想把所有文件中的含有“CDR”这一行读取出来，并一块存入本地文件中。我尝试了集中办法，都不是很让

Spark小文件异步合并工具

09-25

java写的一个spark小文件合并工具，支持text、parquet、orc等格式，分享给有需要的人

spark3.0优化总结

04-19

spark3.0优化总结

Spark Hive 小文件合并

longlovefilm的博客

09-18

3181

背景 小文件带来的问题对于HDFS 从 NN RPC请求角度，文件数越多，读写文件时，对于NN的RPC请求就越多，增大NN压力。从 NN 元数据存储角度，文件数越多，NN存储的元数据就越大。对于下游流程下游流程，不论是MR、Hive还是Spark，在划分分片（getSplits）的时候，都要从NN获取文件信息。这个过程的耗时与文件数成正比，同时受NN压力的影响。在NN压力大，上游小文件多的情况下，下游的getSplits操作就会比较慢。作业生成的文件数为了简化问题，假设：

Spark 小文件合并优化实践

偷闲小苑

10-24

8475

对 spark 任务数据落地(HDFS) 碎片文件过多的问题的优化实践及思考。

Spark SQL 查询 Parquet 文件的性能提升 30%，字节是如何做到的？

过往记忆大数据

12-16

2741

本文来自11月举办的Data + AI Summit 2020（原 Spark+AI Summit），主题为《Improving Spark SQL Performance by 3...

spark实现hive的合并输入很多小文件为指定大小的大文件的优化功能

xiao_jun_0820的专栏

03-16

9819

源码地址：https://github.com/RetailRocket/SparkMultiTool 找到的先记下来，有空研究一下。

Spark 大/小文件读取优化

allwefantasy的专栏

05-08

2298

问题描述使用Spark写复杂SQL时，我们经常会遇到两个尴尬的情况：表里的单个文件都很大，而且因为record比较小，所以单个文件的record数量巨大。表里每个分区都有成百上千个小文件...

spark-小文件优化

盛源的博客

06-15

612

1. 缓存数据源分区文件信息spark.sql.hive.filesourcePartitionFileCacheSize由于小文件产生的spark job performance问题 - 简书

hive on spark和sparksql的调优参数一样吗

最新发布

01-19

### 调优参数对比 #### Hive on Spark 参数设置 Hive on Spark 使用了 Hive 查询优化器，这意味着许多配置项都继承自 Hive 配置文件 `hive-site.xml`。然而，由于最终执行是由 Spark 完成的，所以也允许调整一些特定于 Spark 的属性。 - **资源分配** - 可以通过 `spark.executor.memory`, `spark.driver.memory` 来控制内存大小。 - 设置 `spark.executor.cores` 和 `spark.task.cpus` 控制CPU核心数[^1]。 - **并行度管理** - 利用 `spark.sql.shuffle.partitions` 设定Shuffle操作后的分区数量，默认值通常较低（如200），可以根据集群规模适当增加此数值以提高并发处理能力。 - **广播变量与缓存机制** - 对于小表可启用广播连接(`hive.auto.convert.join=true`)，减少数据传输量。 - 合理利用持久化级别 (`persist()`, `cacheTable()` 方法) 将常用的数据集保存到内存中加快访问速度。 ```sql SET hive.execution.engine=spark; SET spark.sql.broadcastTimeout=600; -- 广播超时时间设为600秒 ``` #### Spark SQL 参数设定 Spark SQL 更加灵活地暴露了许多可以直接影响性能表现的关键参数： - **动态分区裁剪** - 开启选项 `spark.sql.hive.metastorePartitionPruning=true` 改善读取大宽表时的表现[^4]。 - **自动Broadcast Join阈值** - 修改 `spark.sql.autoBroadcastJoinThreshold` (单位字节)，当右表小于该值会触发broadcast join而非shuffle hash join。 - **CBO(基于代价估算的优化)** - 如果开启了统计信息收集，则可以通过 `spark.sql.cbo.enabled=true` 让查询计划更加智能化。 ```scala // Scala代码示例：修改Session级别的配置 val session = SparkSession.builder().appName("example").getOrCreate() session.conf.set("spark.sql.sources.partitionOverwriteMode", "dynamic") // 动态覆盖模式 ``` 尽管两者共享部分相似之处，但在某些方面还是有所区别的。例如，在Hive on Spark环境中更多依赖于Hive本身的特性来进行初步优化，而Spark SQL则提供了更为丰富的内置调优手段供用户选择。