Map/Reduce与Yarn集群的搭建

最新推荐文章于 2025-03-24 21:42:46 发布

原创最新推荐文章于 2025-03-24 21:42:46 发布 · 309 阅读

0 ·

CC 4.0 BY-SA版权

本文深入解析MapReduce原理，包括MapTask与ReduceTask的工作流程，以及Hadoop2中Yarn资源调度器的配置与作用。阐述了MapReduce如何处理大规模数据集，以及Yarn如何优化任务调度。

Map/ReduceYarn集群的搭建

Map/Reduce原理

Map/Reduce原理

Map/Reduce是大数据运算中的一个并行计算框架，用于在集群上并行处理大量数据（TB级数据）。

原理图如图所示：

Map Task原理

在HDFS存储数据以Block块的形式储存，而一个Input Spilt块儿约等于一个Block块儿，因为文件存入时是以字节拆分的，所以每个Input Spilt末尾如果信息不全就会到下个Block中将信息取出合并；
之后就进行Map Task操作,将每一行数据处理，并根据需求封装Key与Value值，每一个；
在通过Map Task操作时会将每一条数据打上一个标签，该标签是为了让每条数据知道将会到哪个Reduce中去执行，一般数值 = Key的HashCode 与 Reduce Task的总数取模，每一个字符串都有一个独一无二的HashCode ,该标签一般称为分区号;
之后会将数据一条一条存入到默认大小为100M（可自定义），位置在内存上的一个buffer块，当写入数据超过总大小的80%时会封锁该buffer,同时会根据分区号将数据进行小聚合（combiner）与排序（sort），目的是将相同分区的数据放在一起并排序，提高效率。而超出的数据将会溢写到磁盘中,每一次溢写都会产生一个小文件;
Map Task计算完成后会将磁盘中的小文件合并成一个大文件,在合并的时候使用归并排序将所有小文件合并为一个有序的大文件,所有Map Task都会进行以上操作并产生一个分区内部有序的大文件；

Reduce Task原理

去Map端读取相应分区的数据，将分区数据写到70%内存中，当写入超过内存的66%时将会封锁并排序，最后将溢写产生的磁盘小文件合并并排序；
注意：所有排序都是为了提高分组的效率

Hadoop 2 yarn资源调度器

在框架运行中需要先向ResourceManager发送请求，请求启动一个Application用于任务调度,ResourceManager就会从其他服务器中随机选一台创建容器container用于ApplicationMaster;

之后ApplicationMaster从客户端Client拿到生成列表后会向ResourceManager申请资源，ResourceManager就会在存放相应数据的DataNode节点下分配容器container用于Map Task，之后将结果返回给客户端Client；

因为ApplicationMaster挂掉，整个集群就会停止，所以ApplicationMaster将会将自身状态实时汇报给ResourceManager。ApplicationMaster一旦挂掉，ResourceManager就会重新启动ApplicationMaster，所以ResourceManager就会有很大压力，所以我们需要有一个备用ResourceManager和对ResourceManager实时监控的zooKeeper集群，防止单点错误。

配置Map/Reduce

节点设计

详细步骤

1. 在之前HA完全分布式的基础在四台虚拟机上修改mapred-site.xml,将一下代码添加到<configuration>标签中：
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>

2. 修改yarn-site.xml,将一下代码添加到<configuration>标签中：
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.resourcemanager.ha.enabled</name>
<value>true</value>
</property>
<property>
<name>yarn.resourcemanager.cluster-id</name>
<value>cluster1</value>
</property>
<property>
<name>yarn.resourcemanager.ha.rm-ids</name>
<value>rm1,rm2</value>
</property>
<property>
<name>yarn.resourcemanager.hostname.rm1</name>
<value>Lucian-01</value>
</property>
<property>
<name>yarn.resourcemanager.hostname.rm2</name>
<value>Lucian-02</value>
</property>
<property>
<name>yarn.resourcemanager.zk-address</name>
<value>Lucian-02:2181,Lucian-03:2181,Lucian-04:2181</value>
</property>