Spark大数据分与实践笔记(第二章 Spark基础-02)

本文详细介绍了Spark的基础知识,包括Spark运行架构中的Application、Driver、Cluster Manager、Worker Node、Executor和Task等概念,阐述了Spark集群运行的基本流程。此外,还通过SparkPi示例展示了如何体验第一个Spark程序的提交过程。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

第二章 Spark基础

2.3 Spark运行架构与原理

2.3.1 基本概念

在学习Spark运行架构与工作原理之前,首先需要了解几个重要的概念和术语。
Application (应用) : Spark 上运行的应用。Application中包含 了一个驱动器(Driver) 进程和集群上的多个执行器(Executor) 进程。
●Driver Program (驱动器) :运行main()方法并创建SparkContext的进程。
●Cluster Manager (集群管理器):用于在集群.上申请资源的外部服务(如: 独立部署的集群管理器、Mesos或者Yarn)。
●Worker Node (工作节点) :集群上运行应用程序代码的任意一个节点。
●Executor (执行器) :在集群工作节点上为某个应用启动的工作进程,该进程负责运行计算任务,并为应用程序存储数据。
●Task (任务) :执行器的工作单元。
●Job (作业) :一个并行计算作业,由一组任务(Task) 组成,并由Spark的行动(Action) 算子(如: save、collect)触发启动。
●Stage (阶段) :每个Job可以划分为更小的Task集合,每组任务被称为Stage.1.1.2
在这里插入图片描述

2.3.2 Spark集群运行架构

Spark是基于内存计算的大数据并行计算框架,比MapReduce计算框架具 有更高的实时性,同时具有高效容错性和可伸缩

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

妉妉师姐

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值