Hadoop和Spark相比,主要有什么关系?

本文解释了Spark与Hadoop之间的关系,并澄清了两者并非竞争对手。Hadoop由HDFS和YARN组成,而Spark作为YARN上的一个计算框架,能够替代原有的MapReduce框架,提升数据处理效率。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Hadoop 正日益成为公司处理大数据的企业平台之选。Spark 则是运行在 Hadoop 之上的内存中处理解决方案。Hadoop 最大的用户(包括易趣和雅虎)都在自己的 Hadoop 集群中运行 Spark。Cloudera 和 Hortonworks 在其 Hadoop 包中也加入了 Spark。我们 Altiscale 的客户在我们最开始推出时就使用运行着 Spark 的 Hadoop。

将 Spark 放到 Hadoop 的对立面就像是在说你的新电动车非常酷,根本不需要电一样。但事实上,电动车会推动对更多电力的需求。

为什么会产生这种混淆?如今的 Hadoop 由两大部分组成。第一部分是名为 Hadoop 分布式文件系统(HDFS)的大规模存储系统,该系统能高效、低成本地存储数据,且针对大数据的容量、多样性和速度进行了优化。第二部分是名为 YARN 的计算引擎,该引擎能在 HDFS 存储的数据上运行大量并行程序。

YARN 能托管任意多的程序框架。最初的框架是由谷歌发明的 MapReduce,用来帮助处理海量网络抓取数据。Spark 是另一个这样的框架,还有一个名为 Tez 的新框架。当人们谈论 Spark 与 Hadoop 的“对决”时,他们实际上是在说现在程序员们更喜欢用 Spark 了,而非之前的 MapReduce 框架。

但是,MapReduce 不应该和 Hadoop 等同起来。MapReduce 只是 Hadoop 集群处理数据的诸多方式之一。Spark 可以替代 MapReduce。商业分析们会避免使用这两个本来是供程序员使用的底层框架。相反,他们运用 SQL 等高级语言来更方便地使用 Hadoop。

在过去四年中,基于 Hadoop 的大数据技术涌现出了让人目不暇接的创新。Hadoop 从批处理 SQL 进化到了交互操作;从一个框架(MapReduce)变成了多个框架(如 MapReduce、Spark 等)。

HDFS 的性能和安全也得到了巨大改进,在这些技术之上出现了众多工具,如Datameer 、 H20 和Tableau 。这些工具极大地扩大了大数据基础设施的用户范围,让数据科学家和企业用户也能使用。

Spark 不会取代 Hadoop。相反,Hadoop 是 Spark 的基石。随着各个组织寻求运用范围最广、最健壮的平台来将自己的数据资产转变为可行动的商业洞见,它们对 Hadoop 和 Spark 技术的采用也会越来越多。
人工智能、大数据、云计算和物联网的未来发展值得重视,均为前沿产业,多智时代专注于人工智能和大数据的入门和科谱,在此为你推荐几篇优质好文:
Hadoop目前在国内外的现状介绍
http://www.duozhishidai.com/article-9754-1.html
什么是Hadoop,如何学习Hadoop
http://www.duozhishidai.com/article-8236-1.html
围绕Hadoop体系的大数据架构,主要有哪几种?
http://www.duozhishidai.com/article-6632-1.html


多智时代-人工智能大数据学习入门网站|人工智能、大数据、物联网云计算的学习交流网站

多智时代-人工智能大数据学习入门网站|人工智能、大数据、云计算、物联网的学习服务的好平台
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值