MapReduce 原理、过程详解与优化 Yarn Hdfs Mapreduce 三者联系

本文深入解析了YARN、MapReduce和HDFS三者的关系,以电脑系统为比喻,形象地说明了它们如何协同工作。YARN作为资源管理系统,MapReduce作为运行其上的应用程序之一,HDFS则扮演数据存储的角色。文章还详细介绍了MapReduce的工作流程,包括任务分配、资源申请及数据处理过程。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

参考文档
yarn原理

一 Mapreduce Yarn Hdfs三者联系

(比喻有不恰当的地方,但更容易理解三者之间的关系)
Mapreduce,Yarn,Hdfs三者之间的关系,可以用电脑来进行解释。大体可以理解为:windows系统电脑上的一个视频播放软件(mapreduce),通过windows操作系统(yarn)找到存在电脑硬盘(hdfs)上的电影,然后视频播放器播放电影

  • Yarn 相当于电脑的操作系统,统管电脑的资源调配
  • Mapreduce相当于电脑上的一个应用程序,电脑上可以有很多应用程序
  • Hdfs相当于电脑的硬盘,存储文件
    Yarn,Mapreduce,Hdfs三者是解藕的,电脑必须要有操作系统,目前Yarn比较合适,电脑必须要有硬盘存储数据,目前一般用Hdfs;但是电脑可以有很多应用程序,所以Spark,Mapreduce,Kafka等都可以当作运行在Yarn系统上的应用程序。
    Yarn Mapreduece Hdfs 联系
    在这里插入图片描述
  • 1.mapreduce在客户端启动mapreduce application master(简称mam),mam
  • 2.mam想resourcemanager申请运算资源
  • 3.mam拿到运算资源后,遍历hdfs上的文件,然后规划启动多少个maptask和reducetask
  • 4.mam把mapreduce程序分发到各个节点
  • 5.各个节点利用nodemanager管理运算资源,各个节点启动container容器进行运算,即执行maptask,reduecetask

二 Mapreduce

2.1.Mapreduce介绍

Maprecude是一个分布式程序运算框架,是用户基于hadoop的数据分析应用的核心框架
Mapreduce: 核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式程序,并运行在一个hadoop集群上
maprecude运行全流程
在这里插入图片描述

mapreduce原理
mapreduce原理刨析
Maptask任务切片机制
在这里插入图片描述
mapreduce 的shuffle原理
在这里插入图片描述
Mapreduce Yarn 工作机制
Mapreduce Yarn 工作机制

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值