Spark-概述、目录文件构成、spark shell、SparkUI

Spark是一个用于集群计算的快速通用平台,以其内存计算加速性能著称。Spark Core是基础,包含任务调度和RDD API;Spark SQL处理结构化数据,Spark Streaming做实时计算,MLlib提供机器学习功能,GraphX用于图计算。Spark可在多种集群管理器上运行。Spark目录的bin包含交互命令,配置log4j.properties可调整日志输出。SparkUI默认监听4040端口。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1)Spark是什么?

Spark 是一个用来实现快速而通用的集群计算的平台。

在速度方面,Spark 扩展了广泛使用的MapReduce 计算模型,而且高效地支持更多计算模
式,包括交互式查询和流处理。

Spark 的一个主要特点就是能够在内存中进行计算,因而更快。不过即使是必须在磁盘上

进行的复杂计算,Spark 依然比MapReduce 更加高效。

2)spark软件栈


Spark Core:Spark Core 实现了Spark 的基本功能,包含任务调度、内存管理、错误恢复、与存储系统 交互等模块。Spark Core 中还包含了对弹性分布式数据集(resilient distributed dataset,简称RDD)的API 定义

Spark SQL 是Spark 用来操作结构化数据的程序包。

Spark Streaming 是Spark 提供的对实时数据进行流式计算的组件。

Spark 中还包含一个提供常见的机器学习(ML)功能的程序库,叫作MLlib。

GraphX 是用来操作图(比如社交网络的朋友关系图)的程序库,可以进行并行的图计算。

集群调度器:Spark 设计为可以高效地在一个计算节点到数千个计算节点之间伸缩计算。为了实现这样的要求,同时获得最大灵活性,Spark 支持在各种集群管理器(clustermanager)上运行&

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值