
大数据-spark
文章平均质量分 83
今天努力了吗??
上岸985研究生,人工智能方向,后续大数据和AI相关的知识一起分享,欢迎大佬们批评指正!
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
SparkUI的分析与定制
Spark中的UI设置与自定义UI页面原创 2023-01-30 16:19:22 · 649 阅读 · 0 评论 -
Spark源码debug
Spark源码Debug、本地和远端原创 2022-01-15 22:30:40 · 1380 阅读 · 0 评论 -
Spark源码阅读环境搭建build
build spark源码 spark源码阅读原创 2022-01-15 22:16:08 · 550 阅读 · 0 评论 -
SpringBoot+spark+scala用spark-submit的方式提交springboot任务
前言:突发奇想,将SpringBoot、spark、scala结合起来然后打成一个jar包,将jar包用spark目录一、使用方式二、代码结构application.ymlSparkConfig(java)collect(java)Service(scala)一、使用方式github地址:https://github.com/sgr-china/SpringSpark.git将项目克隆下来后,把自己本地hdfs-site.xml、core-site.xml、hive-site.xml放到resour原创 2021-12-17 11:50:03 · 2543 阅读 · 0 评论 -
Spark3 AQE之自动合并Shuffle partition源码解读
Branch:spark-3.0有不对的地方欢迎各位大佬批评指正!相关参数:spark.sql.adaptive.enabled AQE是否开启spark.sql.adaptive.coalescePartitions.enabled 分区合并是否开启spark.sql.adaptive.coalescePartitions.minPartitionNum 合并后最小的分区数,下文我们简称为minPartitionNumspark.sql.adap原创 2021-12-16 14:43:16 · 2993 阅读 · 2 评论 -
Spark3自适应查询计划(Adaptive Query Execution,AQE)
动态合并shuffle分区(Dynamically coalescing shuffle partitions)动态调整join策略(Dynamically switching join strategies)动态优化数据倾斜join(Dynamically optimizing skew joins)参数:spark.sql.adaptive.enabled 默认关闭,开启此参数后上述三种策略才会执行1、动态优化数据倾斜(Dynamically optimizing skew joins)sp原创 2021-07-25 18:45:39 · 2295 阅读 · 2 评论 -
Spark3新特性之动态分区裁剪(Dynamic Partition Pruning,DPP)
Spark3动态分区裁剪(Dynamic Partition Pruning,DPP)参数:spark.sql.optimizer.dynamicPartitionPruning.enabled默认开启执行条件:①、需要剪裁的表必须是分区表且分区字段必须在on条件中②、join类型必须是 inner、left(右表是分区表)、right(左表是分区表)、left semi(右表是分区表)③、spark.sql.optimizer.dynamicPartitionPruning.useStats原创 2021-07-25 18:39:51 · 2616 阅读 · 1 评论