Spark术语解释

本文介绍了Apache Spark中的关键术语,包括Application、ApplicationJar、DriverProgram、ClusterManager等,为读者提供了Spark架构及运行机制的基础理解。

术语解释

名词含义
Application用户在spark上的程序,由一个driver程序和数个executor组成
Application jar包含用户Spark应用程序的jar包
Driver program运行main函数并且创建SparkContext的程序
Cluster manager集群的资源管理器,可以获取集群中资源的外部服务
Deploy modedriver的部署运行模式,分”cluster”和”client”两种模式。在”cluster”模式下,框架会在集群中的任意一台机器上启动driver;在”client”模式下,dirver会在集群外被提交者启动。
Worker node集群中任何一个可以运行spark应用代码的节点。Worker Node就是物理节点,可以在上面启动Executor进程。
Executor应用在worker节点上启动的进程,运行任务,并将数据保存在内存或者磁盘上。每个应用都有各自独立的executor。
Task被发送到executor上的工作单元。
Job包含很多个task的并行计算,可以认为是Spark RDD中的action,每个action的计算会生成一个job。
Stage每个job会被拆分成多组task,每组task被称为stages(类似MR中的map stage 和 reduce stage)。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值