spark
文章平均质量分 93
五分钟学大数据
公众号:五分钟学大数据
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Spark SQL底层执行流程详解
本文目录一、Apache Spark二、Spark SQL发展历程三、Spark SQL底层执行原理四、Catalyst 的两大优化完整版传送门:Spark知识体系保姆级总结,五万字好文!一、Apache SparkApache Spark是用于大规模数据处理的统一分析引擎,基于内存计算,提高了在大数据环境下数据处理的实时性,同时保证了高容错性和高可伸缩性,允许用户将Spark部署在大量硬件之上,形成集群。Spark源码从1.x的40w行发展到现在的超过100w行,有1400多位原创 2022-04-21 14:32:01 · 7294 阅读 · 7 评论 -
Spark内存管理详解
本文目录: Spark Shuffle进化史 堆内和堆外内存规划 内存空间分配 存储内存管理 执行内存管理 上百本优质大数据书籍,附必读清单(大数据宝藏)前言Spark 作为一个基于内存的分布式计算引擎,其内存管理模块在整个系统中扮演着非常重要的角色。理解 Spark 内存管理的基本原理,有助于更好地开发 Spark 应用程序和进行性能调优。本文旨在梳理出 Spark 内存管理的脉络,抛砖引玉,引出读者对这个话题的深入探讨。本文中阐述的原理基..原创 2022-04-12 15:51:52 · 874 阅读 · 1 评论 -
五万字 | Spark吐血整理,学习与面试收藏这篇就够了!
Spark超全总结文档目录如下:Spark涉及的知识点如下图所示,本文将逐一讲解:本文档参考了关于 Spark 的众多资料整理而成,为了整洁的排版及舒适的阅读,对于模糊不清晰的图片及黑白图片进行重新绘制成了高清彩图。本文超长,获取本文完整PDF文档,带目录超全总结,请扫码关注公众号【五分钟学大数据】,后台发送:spark pdf,即可下载带目录的完整版spark文档:正文开始:一、Spark 基础1. 激动人心的 Spark 发展史大数据、人.原创 2021-08-26 18:40:32 · 4569 阅读 · 19 评论 -
面试常问-Spark的两种核心Shuffle详解
在 MapReduce 框架中, Shuffle 阶段是连接 Map 与 Reduce 之间的桥梁, Map 阶段通过 Shuffle 过程将数据输出到 Reduce 阶段中。由于 Shuffle 涉及磁盘的读写和网络 I/O,因此 Shuffle 性能的高低直接影响整个程序的性能。 Spark 也有 Map 阶段和 Reduce 阶段,因此也会出现 Shuffle 。Spark ShuffleSpark Shuffle 分为两种:一种是基于 Hash 的 Shuffle;另一种是基于 Sort 的原创 2021-08-16 14:12:25 · 1039 阅读 · 1 评论 -
Spark性能调优-Shuffle调优及故障排除篇
Spark调优之Shuffle调优本节开始先讲解Shuffle核心概念;然后针对HashShuffle、SortShuffle进行调优;接下来对map端、reduce端调优;再针对Spark中的数据倾斜问题进行剖析及调优;最后是Spark运行过程中的故障排除。本文首发于公众号【五分钟学大数据】,本公号专注于大数据技术,分享高质量大数据原创技术文章。一、Shuffle的核心概念1. ShuffleMapStage与ResultStage在划分stage时,最后一个stage称为FinalS原创 2021-03-26 11:43:07 · 3729 阅读 · 3 评论 -
上万字详解Spark Core(建议收藏)
????先来一个问题,也是面试中常问的:Spark为什么会流行?原因1:优秀的数据模型和丰富计算抽象Spark 产生之前,已经有MapReduce这类非常成熟的计算系统存在了,并提供了高层次的API(map/reduce),把计算运行在集群中并提供容错能力,从而实现分布式计算。虽然MapReduce提供了对数据访问和计算的抽象,但是对于数据的复用就是简单的将中间数据写到一个稳定的文件系统中(例如HDFS),所以会产生数据的复制备份,磁盘的I/O以及数据的序列化,所以在遇到需要在多个计算之间复原创 2021-03-17 10:34:53 · 4695 阅读 · 9 评论 -
Spark性能调优-RDD算子调优篇(深度好文,面试常问,建议收藏)
RDD算子调优不废话,直接进入正题!1. RDD复用在对RDD进行算子时,要避免相同的算子和计算逻辑之下对RDD进行重复的计算,如下图所示:对上图中的RDD计算架构进行修改,得到如下图所示的优化结果:2. 尽早filter获取到初始RDD后,应该考虑尽早地过滤掉不需要的数据,进而减少对内存的占用,从而提升Spark作业的运行效率。本文首发于公众号:五分钟学大数据,欢迎围观,回复【书籍】即可获得上百本大数据书籍3. 读取大量小文件-用wholeTextFiles当我们将一个文本文件读原创 2021-03-05 10:01:07 · 1615 阅读 · 29 评论 -
Spark底层原理详细解析(深度好文,建议收藏)
Spark简介Apache Spark是用于大规模数据处理的统一分析引擎,基于内存计算,提高了在大数据环境下数据处理的实时性,同时保证了高容错性和高可伸缩性,允许用户将Spark部署在大量硬件之上,形成集群。Spark源码从1.x的40w行发展到现在的超过100w行,有1400多位大牛贡献了代码。整个Spark框架源码是一个巨大的工程。下面我们一起来看下spark的底层执行原理。Spark运行流程具体运行流程如下:SparkContext 向资源管理器注册并向资源管理器申请运行Executo原创 2021-01-29 09:55:40 · 1978 阅读 · 0 评论
分享