HDFS Yarn MapReduce关系
图片解析

文字描述
-
HDFS启动
-
一个HDFS集群,三个结点,一个有NameNode,三个DataNode,一个SNM
-
往HDFS上传数据,就是上传到DN
-
-
YARN启动
-
一个RM,三个NodeManager
-
写MR程序,提交Job到RM
-
RM启动APPMaster
-
AM向RM申请Resource
-
RM会给AM资源:Container
(根据每个结点的资源情况;运行程序需要的资源的块所在的结点;合理分配Container)
-
MapTask在Container,MapTask会去DataNode上面读取资源
-
MapTask运行完产生结果,此时AppMaster再次向RM申请运行ReduceTask所需资源
-
RM选择合适的结点创建容器,运行RT,此时RT到MT所在的容器拉取运行结果
-
ReduceTask运行完结果后就会写到HDFS上,即:DataNode上
-
释放资源
-
本文详细阐述了HDFS和YARN在大数据处理中的角色和交互过程。HDFS作为分布式文件系统,用于存储数据,而YARN作为资源管理系统,负责任务调度和资源分配。当提交MapReduce作业时,RM启动AM,AM向RM申请资源,RM根据数据分布和资源情况分配Container执行MapTask。MapTask在DN上读取数据并生成结果,再由AM申请资源执行ReduceTask,最终ReduceTask将结果写回HDFS的DN节点。整个过程中,资源高效利用和数据本地性得到优化。
865

被折叠的 条评论
为什么被折叠?



