YARN:大数据资源管理的革新者
1. 引言
在2006年初,Apache Hadoop作为一个分布式处理大型数据集的框架被引入。它由存储层Hadoop分布式文件系统(HDFS)和MapReduce框架组成,用于集群上的资源利用和作业执行管理。然而,随着社交网络和电子商务网站的指数级增长,对框架的需求不仅局限于MapReduce批处理,还需要实时和交互式数据分析。Hadoop的数据存储框架能够应对不断增长的数据量,但资源管理成为了瓶颈。因此,YARN(Yet Another Resource Negotiator)作为Hadoop的第二代资源管理框架应运而生。
2. MapReduce v1 简介
2.1 基本原理
MapReduce是一个软件框架,用于在大型商用硬件集群上以可靠、容错的方式同时处理大量数据。它是一种面向批处理的模型,大量数据存储在HDFS中,数据计算通过MapReduce阶段进行。其基本原理是移动计算数据而不是通过网络移动数据进行计算,MapReduce任务被调度在数据所在的物理节点上运行,这显著减少了网络流量,并将大部分I/O操作保持在本地磁盘或同一机架内。
2.2 高层架构
MapReduce框架的高层架构有三个主要模块:
- MapReduce API :这是最终用户用于对要在HDFS数据上执行的MapReduce作业进行编程的API。
- MapReduce框架 :这是MapReduce作业中各个阶段(如映射、排序/洗牌/合并聚合和归约阶段)的运行时实现。
-
超级会员免费看
订阅专栏 解锁全文
554

被折叠的 条评论
为什么被折叠?



