自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(1)
  • 资源 (1)
  • 收藏
  • 关注

原创 Hadoop与Spark的比较

通过对Hadoop和Spark的概述,使您对它们的框架,包括核心组件、数据怎样在MapReduce和Spark中流转;接下来,通过分析它们的运行框架以便更好理解应用怎样在Hadoop和Spark中工作的。另外,它们生态系统中的各个组件功能特点也将被一一说明。...

2025-03-28 14:42:18 1487

Starred_Paper_Hadoop_Spark.docx

本篇英文论文通过三个具体实例(WordCount Sorted By Key, WordCount Sorted by Values 和 PageRank算法)来对比Hadoop 和 Spark 在大数据应用中运行时间,从而观察这些研究实例随着的迭代计算次数的增加,其时间性能比率的变化和趋势。该课题不仅系统的论述和比较Hadoop和Spark的系统结构、运行原理及各自的生态系统特点,也包括怎样逐步调优系统性能,例如数据压缩类型,内存分配控制,数据分割等手段。实验数据结果表明,由于Spark平台主要基于分布式的内存计算,而Hadoop中的Mapreduce框架在每个map或reduce阶段存在回写或读取硬盘操作,所以Spark的性能优势远远在于Hadoop之上,但前者以使用大量内存进行数据存贮或计算为代价。另外,在性能优化方面,Spark也采取了一些Hadoop没有充分考虑的因素,如内存宽带利用率、单位时间内的磁盘读写操作,及任务启动初始化时间等,所以相对于Hadoop,Spark表现出更优异的性能。

2019-08-06

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除