Spark搭建/Hadoop集群

本文详细介绍了Spark的特点和优势,如速度、易用性、通用性和兼容性,并对比了Spark与Hadoop在编程方式、数据存储、数据处理和数据容错上的区别。此外,文章还阐述了Spark的广泛应用场景,并提供了详细的Spark开发环境搭建步骤,包括在Standalone、Mesos和Yarn模式下的部署,以及Scala和Spark的安装配置。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一、Spark概述.

Spark于2009年诞生于美国加州大学伯克利分校的AMP实验室,它是一个可应用于大规模数据处理的统一分析引擎。Spark不仅计算速度快,而且内置了丰富的API,使得我们能够更加容易编写程序。

Spark在2013年加入Apache孵化器项目,之后获得迅猛的发展,并于2014年正式成为Apache软件基金会的顶级项目。Spark生态系统已经发展成为一个可应用于大规模数据处理的统一分析引擎,它是基于内存计算的大数据并行计算框架,适用于各种各样的分布式平台的系统。在Spark生态圈中包含了Spark SQLSpark StreamingGraphXMLlib等组件。

 图1-1

 

图1-2

 

图1-3

 

图1-4

二、Spark特点.

Spark计算框架在处理数据时,所有的中间数据都保存在内存中,从而减少磁盘读写操作,提高框架计算效率。同时Spark还兼容HDFS、Hive,可以很好地与Hadoop系统融合,从而弥补MapReduce高延迟的性能缺点。所以说,Spark是一个更加快速高效的大数据计算平台。

1、速度快.

根据官方数据统计,与Hadoop相比,Spark基于内存的运算效率要快100倍以上,基于硬盘的运算效率也要快10倍以上。Spark实现了高效的DAG执行引擎,能够通过内存计算高效地处理数据流。

2、易用性.

Spark编程支持JavaPythonScalaR语言,并且还拥有超过80种高级算法,除此之外,Spark还支持交互式的Shell操作,开发人员可以方便地在Shell客户端中使用Spark集群解决问题。

3、通用性.

Spark提供了统一的解决方案,适用于批处理交互式查询(Spark SQL)实时流处理(Spark Streaming)机器学习(Spark MLIib)图计算(GraphX),它们可以在同一个应用程序中无缝地结合使用,大大减少大数据开发和维护的人力成本和部署平台的物力成本。

4、兼容性.

Spark可以运行在Hadoop模式Mesos模式Standalone独立模式Cloud中,并且还可以访问各种数据源,包括本地文件系统HDFS

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值