HDFS Yarn MapReduce关系
图片讲解

文字讲解
-
HDFS启动
-
一个HDFS集群,三个结点,一个有NameNode,三个DataNode,一个SNM
-
往HDFS上传数据,就是上传到DN
-
-
YARN启动
-
一个RM,三个NodeManager
-
写MR程序,提交Job到RM
-
RM启动APPMaster
-
AM向RM申请Resource
-
RM会给AM资源:Container
(根据每个结点的资源情况;运行程序需要的资源的块所在的结点;合理分配Container)
-
MapTask在Container,MapTask会去DataNode上面读取资源
-
MapTask运行完产生结果,此时AppMaster再次向RM申请运行ReduceTask所需资源
-
RM选择合适的结点创建容器,运行RT,此时RT到MT所在的容器拉取运行结果
-
ReduceTask运行完结果后就会写到HDFS上,即:DataNode上
-
释放资源
-
本文详细介绍了HDFS(Hadoop Distributed File System)和YARN(YARN Resource Manager)在MapReduce任务执行过程中的交互。当数据上传到HDFS后,MapReduce作业提交到YARN,由ResourceManager调度AppMaster,进而分配Container到各个NodeManager上运行MapTask。MapTask从DataNode读取数据,完成处理后,AppMaster申请资源运行ReduceTask。ReduceTask在获取MapTask结果后将其写回HDFS。整个流程展示了HDFS和YARN如何协同支持大规模数据处理。
1673

被折叠的 条评论
为什么被折叠?



