Spark一 Spark概念和特征

Spark是一种内存计算引擎,以其快速、易用、通用和跨平台的特性受到关注。它支持Java、Python、Scala和SQL等多种API,适用于批处理、流处理、机器学习和图形处理。Spark Core提供基础功能,包括任务调度、内存管理和RDD(弹性分布式数据集)。Spark SQL用于处理结构化数据,兼容SQL和Hive查询,支持多种数据源。Spark Streaming则用于实时数据流计算,MLlib提供机器学习功能,而GraphX专注于图计算。Spark可与多种集群管理器配合,服务于数据科学家和工程师的数据处理需求。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Spark是基于内存处理大规模数据的通用快速计算引擎

特征:

1) 快速:速度远超Hadoop计算速度

2) 易使用:提供Java,Python,Scala,SQL等API

3) 通用性:支持交互式查询,流处理,批处理,机器学习算法和图形处理

4) 到处运行:Standalone, Hadoop,Cassandra等数据工具配合使用



Spark Core

1) 实现基本功能,任务调度,内存管理,错误恢复,与存储系统交互

2) 包含RDD的API定义,RDD(resilient distributed dataset)是分布在多个计算机节点上可以并行操作的元素集合,是Spark的主要编程抽象


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值