
【== Spark内核分析 ==】
从源码级别分析Spark
阿龙先生啊
懂点大数据运维, 会写两三行代码,自学了一些 docker, kubernetes。博客主要分享大数据、Linux、云原生相关知识。 目前职位大数据工程师,长远打算做个会敲代码的厨子。
展开
-
Job aborted due to stage failure: Total size of serialized results of 3 tasks (1074.3 MB) is bigger
Spark任务运行报错如下:21/10/09 15:49:31 INFO DAGScheduler: Job 0 failed: collect at TrackDataSourceWrite.scala:190, took 94.206171 sorg.apache.spark.SparkException: Job aborted due to stage failure: Total size of serialized results of 3 tasks (1074.3 MB) is...原创 2021-10-09 18:27:00 · 2013 阅读 · 0 评论 -
解决Spark数据倾斜(Data Skew)的 N 种姿势 与 问题定位
Spark性能优化之道——解决Spark数据倾斜(Data Skew)的N种姿势本文结合实例详细阐明了Spark数据倾斜的问题定位和几种场景以及对应的解决方案,包括避免数据源倾斜,调整并行度,使用自定义Partitioner,使用Map侧Join代替Reduce侧Join,给倾斜Key加上随机前缀等。本文转发自技术世界,原文链接 http://www.jasongj.com/spa...原创 2019-12-29 22:26:30 · 3624 阅读 · 0 评论 -
org.apache.spark.SparkException: Kryo serialization failed: Buffer overflow
运行Spark任务报错如下:21/10/09 14:56:32 ERROR Executor: Exception in task 1.0 in stage 2.0 (TID 4)org.apache.spark.SparkException: Kryo serialization failed: Buffer overflow. Available: 0, required: 93. To avoid this, increase spark.kryoserializer.buffer....原创 2021-10-09 17:34:40 · 1872 阅读 · 0 评论 -
Spark-Submit提交流程源码分析(Yarn-Cluster源码分析, Yarn-Cluster 和 Yarn-Client 的区别)
目录概念简介Hadoop Yarn组件介绍:ResourceManager(RM)NodeManager(NM)ApplicationMaster(AM)ContainerYarn-Cluster模式Spark On Yarn 一、 SparkSubmit 分析二、转到 Client三、ApplicationMaster四、Coarse...原创 2020-01-08 12:35:47 · 1315 阅读 · 0 评论