
Spark
文章平均质量分 69
fir_dameng
这个作者很懒,什么都没留下…
展开
-
executor行为相关Spark sql参数源码分析
【重点】在spark sql中有对应参数为:对应源码位置如下:org.apache.spark.scheduler.cluster.CoarseGrainedSchedulerBackend#defaultParallelismorg.apache.spark.sql.internal.SQLConf#FILES_MAX_PARTITION_BYTESorg.apache.spark.sql.internal.SQLConf#FILES_OPEN_COST_IN_BYTES1.1.2.2 代码准备输原创 2023-03-10 20:49:06 · 1574 阅读 · 1 评论 -
Spark Sql 转换成Task执行 和 InsertIntoHiveTable写入hive表数据 源码分析
对于spark的InsertIntoHiveTable,结果rdd的每个partition的数据都有相应的task负责数据写入,而每个task都会在目标hive表的location目录下的.hive-staging_hive*/-ext-10000目录中创建相应的临时的staging目录,当前task的所有数据都会先写入到这个staging目录中;(2)task执行,写入数据到.hive-staging_hive_*/-ext-10000目录((1) 创建相关临时目录,提交task调度执行。原创 2023-02-10 23:46:46 · 1218 阅读 · 0 评论 -
Spark 动态资源分配参数与源码原理分析
最开始生效位置 : 1.1.1.2.1 ExecutorAllocationManager动态资源分配的工作,全部交由ExecutorAllocationManager类来管理,可以根据集群负载 实现最大并行化运行程序。在sparkcontext初始化时,被调用。总体调用示意图如下:这里我们先看 updateAndSyncNumExecutorsTarget 和removeExecutors方法,因为其内部 最终也会调用 requestTotalExecutors计算当前最大需要的execut原创 2022-12-08 00:32:26 · 2821 阅读 · 0 评论 -
Spark性能调优案例-优化spark估计表大小失败 和 小表关联 走 broadcast join
A任务中关联一张表,该表经过过滤和去重,数据量小于10MB,实际任务耗时较长。B任务关联一张小表,实际任务耗时较长。原创 2022-11-12 16:30:19 · 1590 阅读 · 0 评论 -
Spark性能调优案例-多表join优化,减少shuffle
A任务在凌晨1点到3点,平均耗时1h,且是核心公共任务,急需优化。原创 2022-11-12 15:55:56 · 2298 阅读 · 0 评论 -
Spark性能调优案例-千亿大表读取,数据倾斜和task倾斜
A任务在凌晨1点到3点,平均耗时1.5h,且是核心公共任务,急需优化。原创 2022-11-12 15:28:33 · 1226 阅读 · 0 评论 -
Spark性能优化实战总结
如果多表join,存在重复逻辑,可以使用group by + max减少join。hive sql时代 容易有使用临时表,存储下中间数据,避免内存占用过大。但spark sql时代,可以消除临时表,减少多余stage,减少耗时。原创 2022-11-12 14:25:10 · 1300 阅读 · 0 评论 -
Spark参数调优 - Spark重要参数梳理
spark参数众多,本文着重回答第1个问题。原创 2022-11-09 00:49:08 · 249 阅读 · 0 评论 -
Spark3.0 Sql 使用HiveTableScanExec 读取Hive orc表源码分析及参数调优
默认情况下因此,默认情况下,切片大小=blocksize。因为一般文件的block大小为128M, 是小于mapreduce.input.fileinputformat.split.maxsize默认值的根据orc文件的stripe,结合参数配置,最终生成split结论:因此使用能够控制生成split个数,进而控制读取的map task数量以下为设置为"67108864"时,spark sql 读取orc文件的示意图。原创 2022-10-29 00:34:25 · 3169 阅读 · 2 评论 -
Idea上 使用Spark3.0 sql 操作hive
前提:按照以下集群规划安装好HDFS,Hadoop Yarn。原创 2022-10-26 23:11:10 · 1362 阅读 · 0 评论 -
Spark 3.0参数详解之 spark.sql.files.maxPartitionBytes
在接口FileScan的partitions方法中。原创 2022-10-09 23:56:13 · 4452 阅读 · 0 评论 -
Spark 3.3源码 IDEA阅读环境搭建
这样下载依赖快,且完整,保证依赖全部下载完成。这里webui地址便是 上面master的地址。(1)初始化为git仓库。(2)执行生成文件命令。(3)检查文件是否生成。(0)进入源代码目录。原创 2022-10-07 20:32:57 · 320 阅读 · 0 评论