Spark~Spark介绍

原创已于 2022-11-18 13:13:42 修改 · 2.1k 阅读

CC 4.0 BY-SA版权

文章标签：

于 2022-05-01 08:40:00 首次发布

958 篇文章

订阅专栏

本文概述了Spark，一种基于内存计算的分布式分析框架，重点介绍了RDD核心数据结构、Spark编程模型的优势，如速度快、易用性和通用性，并列举了其模块如SparkCore、SparkSQL、SparkStreaming等。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、Spark介绍

Spark是用于大规模数据处理的统一分析引擎
Spark借鉴了MapReduce思想发展而来,保留了其分布式并行计算的优点并改进了其明显的缺陷.让中间数据存储在内存中提高了运行速度、并提供丰富的操作数据的API提高了开发速度

RDD(分布式内存抽象),使得程序员可以在大规模集群中做内存计算,并且有一定的容错方式,是Spark的核心数据结构

由于Spark支持内存计算,并且通过DAG(有向无环图)执行引擎支持无环数据流,所以官方宣称其在内存中的运算速度要比Hadoop的MapReduce快100被,在硬盘中要快10倍

Spark支持包括Java、Scala、Python、R和SQL语言在内的多种语言

在Spark的基础上,Spark还提供了包括Spark SQL、Spark Streaming、MLib及GraphX在内的多个数据库

Spark可以多种方式运行,比如在Hadoop上,也支持Standalone的独立运行模式