
Spark
文章平均质量分 95
Apache Spark 是一个开源框架,专为大规模数据处理而设计的快速通用的计算引擎。Spark 源自加州大学伯克利分校的 AMPLab,现在已被捐献给了 Apache 软件基金会。Spark 继承了 MapReduce 的线性扩展性和容错性,同时对它做了一些重量级扩展。
Small_Ran
这个作者很懒,什么都没留下…
展开
-
Spark简述
SparkApache Spark 是一个开源框架,专为大规模数据处理而设计的快速通用的计算引擎。Spark 源自加州大学伯克利分校的 AMPLab,现在已被捐献给了 Apache 软件基金会。Spark 继承了 MapReduce 的线性扩展性和容错性,同时对它做了一些重量级扩展。Spark 摒弃了 MapReduce 先 Map 再 Reduce 这样的执行方式,Spark 引擎可以执行更...............原创 2020-03-19 10:32:21 · 3283 阅读 · 2 评论 -
Spark 内存管理
本篇主要阐述 Spark 内存管理,主要在于通过理解基本原理,这样有助于更好地开发 Spark 应用程序和进行性能调优。Spark 集群会启动 Driver(默认内存:1G) 和 Executor(默认内存:512M) 两种 JVM 进程,前者为主控进程,负责创建 Spark 上下文,提交 Spark 作业(Job),并将作业转化为计算任务(Task),在各个 Executor 进程间协调任务的调度,后者负责在工作节点上执行具体的计算任务,并将结果返回给 Driver,同时为需要持久化的 RDD 提供存储功原创 2022-07-02 11:26:29 · 571 阅读 · 1 评论 -
Spark Shuffle 过程
本篇主要阐述Spark Shuffle过程,在执行 Job 任务时,无论是 MapReduce 或者 Spark Shuffle 过程都是比较消耗性能;因为该环节包含了大量的磁盘 IO、序列化、网络数据传输等操作。因此,在这一过程中进行调参优化,就有可能让 Job 执行效率上更好。在 Spark 1.2 以前,默认的 Shuffle 计算引擎是 HashShuffleManager。该 ShuffleManager 会产生大量的中间磁盘文件,进而由大量的磁盘 IO 操作影响了性能。...原创 2022-07-02 11:19:55 · 3994 阅读 · 0 评论 -
Spark 划分 Stage
本篇主要阐述 DAGSchedule 划分 Stage 的过程,其主要目的是为了了解 Stage 划分的原理;同时对源码分析更能清楚过程,当某个任务出现运行时间较长时;如果可以清楚其 Stage 划分的过程,就可以大概清楚是什么算子导致运行时间较长,从而可以进行优化提高 Spark 任务运行的效率。...原创 2022-07-02 11:15:35 · 1773 阅读 · 0 评论 -
SparkContext 初始化过程源码说明
本篇主要的目的是阐述 SparkContext 初始化过程中,重要环节源码的逻辑流程的梳理。SparkContext 实例化的过程是一个比较复杂的过程,主要包括SparkEnv、spark-history、心跳检测、状态追踪、广播、资源与任务调度、底层通信等等组件的初始化。本篇文章的主要目的在于:了解 Spark 提交任务底层是怎样将 Task 任务提交至 Executor 中;了解 SparkContext 初始化过程中几个重要的环节。......原创 2022-07-02 11:09:38 · 537 阅读 · 0 评论 -
Spark 任务提交流程涉及源码说明
本篇主要阐述 Spark on Yarn 任务提交源码分析说的流程,目的在于了解任务提交的大概流程;其主要是想通过对 Spark 任务提交流程与涉及到的源码了解;在遇到问题的时候可以快速定位到是由什么环节导致的,从而可以快速排查问题并予以解决。......原创 2022-07-02 11:02:14 · 963 阅读 · 0 评论 -
Spark 参数说明
本篇的主要阐述了Spark 各个参数的使用场景,以及使用的说明与参考;其实主要就是对 Spark 运行过程中各个使用资源的地方,通过调节各种参数来优化资源使用的效率,从而提升Spark作业的执行性能。首先通过大致的 Spark 任务提交流程了解,然后再介绍说明 Spark 各个参数的使用方式,这样更有利于熟悉了解。.........原创 2022-07-02 10:52:25 · 2908 阅读 · 0 评论 -
Spark 任务提交流程说明
本篇主要阐述 Spark 任务提交的流程,其主要目的在于通过了解 Spark 任务提交可以清楚大概的流程,并知道每一步是做什么;当遇到问题可以快速的知道是什么环节或者哪一步骤出现了问题,及时定位到问题并解决。目前Spark官方支持五中集群管理模式,分别是 Standalone、Yarn、Mesoes、Kubernetes、Amazon EC2 等。本篇文章主要阐述笔者平时经常使用的 Standalone 与 Yarn 集群管理模式。..................原创 2022-07-02 10:30:26 · 5787 阅读 · 2 评论