
Spark
文章平均质量分 77
Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行计算框架,Spark拥有Hadoop MapReduce所具有的优点
阿龙先生啊
懂点大数据运维, 会写两三行代码,自学了一些 docker, kubernetes。博客主要分享大数据、Linux、云原生相关知识。 目前职位大数据工程师,长远打算做个会敲代码的厨子。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Spark-Submit提交流程源码分析(Yarn-Cluster源码分析, Yarn-Cluster 和 Yarn-Client 的区别)
目录概念简介Hadoop Yarn组件介绍:ResourceManager(RM)NodeManager(NM)ApplicationMaster(AM)ContainerYarn-Cluster模式Spark On Yarn 一、 SparkSubmit 分析二、转到 Client三、ApplicationMaster四、Coarse...原创 2020-01-08 12:35:47 · 1354 阅读 · 0 评论 -
解决Spark数据倾斜(Data Skew)的 N 种姿势 与 问题定位
Spark性能优化之道——解决Spark数据倾斜(Data Skew)的N种姿势本文结合实例详细阐明了Spark数据倾斜的问题定位和几种场景以及对应的解决方案,包括避免数据源倾斜,调整并行度,使用自定义Partitioner,使用Map侧Join代替Reduce侧Join,给倾斜Key加上随机前缀等。本文转发自技术世界,原文链接 http://www.jasongj.com/spa...原创 2019-12-29 22:26:30 · 4095 阅读 · 0 评论 -
【分布式计算框架】Spark RDD五大属性剖析 | Action 和 Transformations 算子
RDD 是只读的, 不允许任何形式的修改. 虽说不能因为 RDD 和 HDFS 是只读的, 就认为分布式存储系统必须设计为只读的. 但是设计为只读的, 会显著降低问题的复杂度, 因为 RDD 需要可以容错, 可以惰性求值, 可以移动计算, 所以很难支持修改.原创 2020-03-28 23:47:11 · 1601 阅读 · 4 评论 -
【分布式计算框架】Spark 集群搭建与示例运行 | RDD算子入门
Apache Spark 是一个快速的, 多用途的集群计算系统, 相对于 Hadoop MapReduce 将中间结果保存在磁盘中, Spark 使用了内存保存中间结果, 能在数据尚未写入硬盘时在内存中进行运算Spark 只是一个计算框架, 不像 Hadoop 一样包含了分布式文件系统和完备的调度系统, 如果要使用 Spark, 需要搭载其它的文件系统和更成熟的调度系统............原创 2020-03-01 23:00:26 · 2574 阅读 · 1 评论 -
【分布式计算框架】Spark RDD 的 Shuffle 和分区
只有 型的 RDD 才会有 Shuffle 操作, 例如 , 但是有一个特例, 就是 算子可以对任何数据类型 Shuffle,早期版本 Spark 的 Shuffle 算法是 , 后来改为 , 更适合大吞吐量的场景在本地模式下,访问 http://localhost:4040 之所以会有 8 个 Tasks, 是因为在启动的时候指定的命令是 , 这样会生成 1 个 Executors, 这个 Executors 有 8 个 Cores, 所以默认会有 8 个 Tasks, 每个 Core原创 2022-07-05 19:53:39 · 1186 阅读 · 1 评论 -
Job aborted due to stage failure: Total size of serialized results of 3 tasks (1074.3 MB) is bigger
Spark任务运行报错如下:21/10/09 15:49:31 INFO DAGScheduler: Job 0 failed: collect at TrackDataSourceWrite.scala:190, took 94.206171 sorg.apache.spark.SparkException: Job aborted due to stage failure: Total size of serialized results of 3 tasks (1074.3 MB) is...原创 2021-10-09 18:27:00 · 2079 阅读 · 0 评论 -
org.apache.spark.SparkException: Kryo serialization failed: Buffer overflow
运行Spark任务报错如下:21/10/09 14:56:32 ERROR Executor: Exception in task 1.0 in stage 2.0 (TID 4)org.apache.spark.SparkException: Kryo serialization failed: Buffer overflow. Available: 0, required: 93. To avoid this, increase spark.kryoserializer.buffer....原创 2021-10-09 17:34:40 · 1901 阅读 · 0 评论 -
SparkSQL核心笔记(一)----DataSet 和 DataFrame 剖析
Spark SQL使用Hive解析SQL生成AST语法树, 将其后的逻辑计划生成, 优化, 物理计划都自己完成, 而不依赖Hive执行计划和优化交给优化器Catalyst内建了一套简单的SQL解析器, 可以不使用HQL, 此外, 还引入和DataFrame这样的DSL API, 完全可以不依赖任何Hive的组件Shark只能查询文件,Spark SQL可以直接将查询作用于RDD, 这一点是一个大进步原创 2020-04-04 00:55:23 · 1980 阅读 · 0 评论