Spark的设计与运行原理

本文介绍了Spark的主要特点,包括运行速度快、易用性、通用性和多样化运行模式。Spark生态系统包括Spark Core、SQL、Streaming、MLlib和GraphX等组件。Spark运行架构涉及Executor、Cluster Manager、Driver和RDD。RDD操作分为Action和Transformation,其中转换操作是惰性的,只在Action触发时计算。RDD的依赖关系分为窄依赖和宽依赖,影响任务调度。最后,文章提到了Spark的四种部署方式:Local、Standalone、Spark on Mesos和Spark on YARN。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

概述:

1、Spark的主要特点:运行速度快;容易使用;通用性;运行模式多样。

Spark生态系统:

1、大数据处理主要包括以下3个类型

2、 Spark的设计遵循“一个软件栈满足不同应用场景”的理念。即同时支持批处理、交互式查询、流数据处理。

3、Spark组件:Spark Core、Spark SQL(交互式查询分析)、Spark Streaming(流计算)、MLlib(机器学习)、GraphX(图计算)。其中,Spark Core包含Spark最基础和最核心的功能,如:内存计算、任务调度、部署模式、故障恢复、存储管理等。

Spark运行架构:

1、Spark运行架构就是指Spark Core的运行架构。如图:

 进程(Executor)会派生出很多线程,线程去执行具体的任务。

集群资源管理器(Cluster Manager):它对整个集群的资源进行调度和管理。

CPU、内存、带宽这些都叫集群资源。

集群资源管理器可以是Spark自带的资源管理器,也可以是YARN或Mesos等资源管理框架。

2、Spark中各种概念之间的相互关系,如图:

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值