spark专业术语解释

最新推荐文章于 2024-05-22 15:17:22 发布

原创

最新推荐文章于 2024-05-22 15:17:22 发布 · 881 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#spark #大数据

本文深入解析Spark的重要术语，包括Application/App、Driver、Cluster Manager、Worker和Executor。重点阐述RDD及其依赖，如Narrow Dependency和Shuffle Dependency，以及DAG、DAGScheduler、TaskScheduler、Job、Stage和TaskSet的概念。每个Job由DAG图表示，Action操作触发Job，Stage和Task定义了计算任务的执行流程。

Application/App

	指的是用户编写的Spark应用程序/代码，包含了Driver功能代码和分布在集群中多个节点上运行的Executor代码。
	提示：当对RDD操作代码都是运行在Executor中代码
	使用不同语言，编写代码不一样：
		Java/Scala语言：编译以后Class文件
		Python语言：脚本文件

在这里插入图片描述

Spark应用程序，由一个或多个作业JOB组成(因为代码中可能会调用多次Action)

每个Job就是RDD执行一个Action函数：没有返回值，或者返回值不是RDD

Driver

	Spark中的Driver即运行Application的Main()函数并且创建SparkContext，其中创建SparkContext的目的是为了准备Spark应用程序的运行环境。

在这里插入图片描述

在Spark中由SparkContext负责和ClusterManager通信，进行资源的申请、任务的分配和监控等;
	SparkContext向RM或Master申请资源，运行Executor进程（线程池）。
当Executor部分运行完毕后，Driver负责将SparkContext关闭。

Cluster Manager

指的是在集群上获取资源的外部服务，常用的有：
1）Standa

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

西安人走哪都要吃泡馍

关注关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

xxl-job新增Dag功能

XiaoYuanGong的博客

07-08

575

在实际业务场景中，任务之间往往存在依赖关系。例如，任务B需要在任务A完成之后才能执行。DAG 结构能够清晰地表示任务之间的依赖关系，确保任务按照正确的顺序执行。XXL-JOB 是一个轻量级分布式任务调度平台，其核心设计目标是开发迅速、学习简单、轻量级、易扩展。但是它不支持DAG这种有依赖关系的逻辑，它只支持一个父任务拆分多个子任务，而无法完成多个父任务合并为一个任务。2 在触发任务的函数中，如是是dag任务，则调用：digraph.dagStart函数。1 把三个代码放至thread文件目录中；

Spark与Apache Atlas集成：数据治理最佳实践

AI天才研究院

04-21

954

随着企业数据量呈指数级增长，数据治理（Data Governance）已从“可选能力”变为“核心竞争力”。如何清晰掌握数据从产生到消亡的全生命周期，确保数据可追溯、可审计、可合规。Apache Spark作为最广泛使用的大数据处理引擎（覆盖ETL、实时计算、机器学习等场景），其运行过程中产生的元数据（如任务执行计划、输入输出表、字段转换逻辑）是数据治理的“金矿”。而Apache Atlas作为专业的元数据治理平台，能够将离散的元数据整合为可查询、可分析的资产图谱。本文聚焦Spark与Atlas的集成技术。

参与评论您还未登录，请先登录后发表或查看评论

Spark专业术语定义

m0_67393413的博客

08-24

457

将Taskset提交给worker(集群)运行并回报结果;负责每个具体任务的实际物理调度。

任务调度 -- DAG 并行执行调度

TheBigBlue的博客

06-21

7306

向导

Spark名词解释

coderlaw's study

05-09

777

名词解释：1. Standalone模式下存在的角色。【Client】：客户端进程，负责提交作业到Master。【Master】：Standalone模式中主控节点，负责接收Client提交的作业，管理Worker，并命令Worker启动Driver和Executor。【Worker】：Standalone模式中slave节点上的守护进程，负责管理本节点的资源，定期向Master汇报心跳，接收Ma

spark名词解释

lxf5202013121的博客

08-28

555

ClusterManager：在Standalone模式中即为Master（主节点），控制整个集群，监控Worker。在YARN模式中为资源管理器。 Worker：从节点，负责控制计算节点，启动Executor。在YARN模式中为NodeManager，负责计算节点的控制。 Driver：运行Application的main()函数并创建SparkCon

【Spark】Spark核心原理加强、Spark专业术语定义（Application/App、Driver、Cluster Manager、Worker、Executor、RDD）（十二）

大数据爱好者的博客

05-22

786

指的是用户编写的Spark应用程序/代码，包含了Driver功能代码和分布在集群中多个节点上运行的Executor代码，Spark应用程序，由一个或多个作业JOB组成(因为代码中可能会调用多次Action)，如图-1所示:图-1 spark应用程序。

spark--专业术语加强(图解)

qq_46893497的博客

03-06

314

专业术语加强Application/App：Spark应用程序Driver：驱动程序ClusterManager-资源管理器Master/ResourceManager从节点-Worker/NodeManagerExecutor：执行器/执行进程RDD：弹性分布式数据集NarrowDependency窄依赖ShuffleDependency宽依赖DAG有向无环图DAGScheduler[了解]TaskScheduler[了解]JobStageTaskSetTask整体图示 Application/App：S

计算机专业术语大全(1).pdf

07-27

计算机专业术语大全(1).pdf文件是对计算机科学与技术领域中广泛使用的专业术语进行了系统的汇总和解释，覆盖了从基础硬件到软件应用，从网络通讯到数据安全，从编程开发到人工智能等多个方面。这些术语对于计算机...

Spark的专业术语

wu1994226的博客

03-08

213

Spark的基本术语表

Spark中Task，Partition，RDD、节点数、Executor数、core数目的关系和Application，Driver，Job，Task，Stage理解

热门推荐

u013013024的博客

06-06

2万+

有部分图和语句摘抄别的博客，有些理解是自己的梳理一下Spark中关于并发度涉及的几个概念File，Block，Split，Task，Partition，RDD以及节点数、Executor数、core数目的关系。输入可能以多个文件的形式存储在HDFS上，每个File都包含了很多块，称为Block。当Spark读取这些文件作为输入时，会根据具体数据格式对应的InputFormat...

Spark术语

htfenght的博客

01-10

348

Spark术语术语介绍 Application spark应用程序，说白了，就是用户基于spark api开发的程序，一定是通过一个有main方法的类执行的，比如java开发spark，就是在eclipse中，建立的一个工程 Application Jar 这个就是把写好的spark工程，打包成一个jar包，其中包括了所有的第三方jar依赖包，比如java中，就用maven...

spark入门名词解释

涂抹

02-26

709

Spark + HDFS的运行架构图（http://www.oschina.net/news/76763/spark-architecture?from=timeline&isappinstalled=0）Driver:运行Application的main函数并创建SparkContext，SparkContext准备Spark应用程序的运行环境、负责资源的申请、任务分配和监控等。当Exe...

spark种的名词解释

在路上

04-21

1341

1.Application Appliction的概念和hadoop MR中的有些相似，都是指用户编写的Spark应用程序，其中包括一个Driver功能的代码和分布在集群中多个节点上运行的Executor代码。 2.Driver 使用Driver这一个概念的分布式框架很多，比如hive等，Spark中的Driver即运行上述Application的main函数并创建SparkCo

Spark整理：相关名词解释

weixin_38602383的博客

12-05

1477

DAG: 大数据计算引擎框架我们根据使用方式的不同一般会分为四类，其中第一类就是Hadoop 所承载的 MapReduce,它将计算分为两个阶段，分别为 Map 阶段和 Reduce 阶段。对于上层应用来说，就不得不想方设法去拆分算法，甚至于不得不在上层应用实现多个 Job 的串联，以完成一个完整的算法，例如迭代计算。由于这样的弊端，催生了支持 DAG 框架的产生。因此，支持 DAG 的框架被划分为第二代计算引擎。如 Tez 以及更上层的Oozie。这里我们不去细究各种 DAG 实现之间的区别，不过

Spark 基本术语表

Liu-Cheng Xu

04-27

1687

以下内容来自 http://spark.apache.org/docs/2.1.0/cluster-overview.html#glossary , 需要对 spark 的整个运行过程有所了解才能真正理解这些术语的涵义. 术语涵义 application (应用) 基于 Spark 构建的用户程序. 一般包括了集群上的一个 driver 程序与多个 executor applic

spark代码解析

qq_50937686的博客

06-27

724

import java.io.File import scala.io.Source import collection.mutable.Map #导入需要的类 object WordCount { def main(args: Array[String]) { val dirfile=new File("testfiles") #根据当前文件夹下testfiles文件夹（包含若干文本文件），建立一个File对象。 ...

大数据专业术语