Mapreduce学习（二）——mr程序提交的流程+yarn框架的资源调度

最新推荐文章于 2024-06-26 23:19:52 发布

BUG世界中的killer

最新推荐文章于 2024-06-26 23:19:52 发布

阅读量691

点赞数 1

分类专栏： hadoop从0开始文章标签： hadoop mapreduce yarn 运行机制

本文链接：https://blog.youkuaiyun.com/qq_32695789/article/details/85011661

版权

hadoop从0开始专栏收录该内容

14 篇文章

订阅专栏

上篇文章简单写了一个mr程序并且提交至咱们的集群中运行。这篇文章给大家带来mr具体的流程以及进程的变化过程

我们运行sh.start-all.sh 时进程会出现

其中DataNode、NameNode、SecondaryNameNode属于HDFS的进程用于管理文件存储

ResourceManager（下面称RM）和NodeManager（下面称NM）属于yarn框架的进程

一、提交job

1）运行job的jar文件：hadoop jar xxx.xx.xx.WordCountRunner

这个main方法中最后一步提交job至集群：job.waitForCompletion()方法这个时候进程会出现一个RunJar的进程

2）RunJar向RM申请执行一个job，RM会返回job相关资源以及jobID

3）RunJar会将这些资源提交至HDFS并且将提交结果信息返回RM

4）RM将job添加至job队列中

二、初始化

1）RM初始化job任务

2）NM从RM领取job

3）NM分配资源容器（包括IO资源、磁盘资源、网络资源、内存资源等等）

三、mapreduce

1）RM在某个NM节点上启动MRAppMaster（mr主要进程）

2）master向RM注册job

3）master给其他NM上分配MapTask从而产生yarnChild（进行map计算）

4）map计算结束之后将结果给reduce的NM节点进行分析整合

5）将结果写入HDFS

6）master向RM注销自己结束进程

下一篇文章（周日发布）将会带来如何在本地DEBUG 调试Mapreduce程序

本人QQ/Wechat:806751350

github地址：https://github.com/linminlm

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

BUG世界中的killer

关注关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

MR程序在yarn上的运行流程说明.

bing13692468的博客

06-14

531

1. 客户端往resourcemanager提交了job,resourcemanager中有一个ApplicationMaster管理所有的job, 然后ApplicationMaster会创建一个jobID和临时目录,返回一个job ID和工作临时目录给客户端初始化job,然后在hdfs中创建工作目录,接收jar包初始化配置根据路径数据计算任务切片, 返回给客户端ok 然后客户端向resourcemanager申请默认容器,来创建MRApplicationMaster,执行程序,

MapReduce编程模式——WordCount程序详解

weixin_44319333的博客

04-24

697

首先介绍一下Hadoop的四大组件： - HDFS：分布式存储系统 - MapReduce：分布式计算系统 - YARN：hadoop的资源调度系统 - Common：以上三大组件的底层支撑组件，主要提供工具包和RPC框架等 MapReduce是一个分布式运算程序的编程框架，是用户开发“基于Hadoop的数据分析应用”的核心框架。其核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的...

参与评论您还未登录，请先登录后发表或查看评论

MR提交job到YARN的流程

bbbbobbb的博客

08-06

957

MR提交job到YARN的流程（1）首先client里执行一个MapReduce程序，这个程序运行在client端的JVM里，在main方法中最后有一个job.waitForCompletion(true)方法，当执行这个方法后会触发job.submitJob方法，准备向RM提交一个application。（2）RM接受到请求后，会为这个application生成一个application +id编号，并且client会检查输出路径是否已存在，输入输出路径信息是否齐全。不管检查有问题与否，RM都会给c

提交MapReduce到YARN中去执行

weixin_y18485705761的博客

04-26

500

一、查看Hadoop内置的MapReduce示例代码1.2.3.这样我们可以看到内置的jar包。

-大数据入门-2-Hadoop-mr提交到yarn的工作流程

chen_2_2的博客

07-19

369

mr在yarn架构设计 1.用户向yarn提交job，其中包含application master程序，启动application master的命令等。 2.RM为该job分配第一个container,与对应的NM通信，要求它在这个container启动作业的application master。 3.application master向applications manager注册，这样用户就...

MR程序在yarn上运行流程机制

weixin_47699191的博客

11-04

422

1.客户端提交job到ResourceManager 2.RM中的MRApplication分配一个jobid和临时的工作目录返回给客户端 3.客服端进行初始化 1.创建工作目录 2.构建配信息conf.xml 3.上传jor包到hdfs中 4.读取文件计算切片(遍历输入路径下的所有文件,根据文件大小计算任务切片,文件<=128M*1.1就切分为一个任务切片,得到多个任务切片数,假如有3个任务切片就是3个maptask任务) 4.客户端请求RM创建一个初始化的容器(存运算资源,cpu的个数,内存的.

Hadoop——分布式资源管理框架YARN总结

阿楠的博客

04-09

1608

分布式资源管理框架YARN 1. YARN概述 YARN是“Yet Another Resource Negotiator”的简称。在进一步了解 YARN 框架之前我们需要知道，相比较而言，MapReduce 则是 YARN 的一个特例。 YARN 则是 MapReduce 的一个更加通用和高级的框架形式，并在其上增加了更多的功能。例如通过加载分布式执行脚本可以在集群节点上执行独立的脚本...

大数据Hadoop入门——HDFS、Yarn、MapReduce

weixin_44090845的博客

11-16

2585

Hadoop框架详细个人总结——Hadoop入门篇大数据是什么？Hadoop基本概念介绍一、什么是Hadoop？二、Hadoop优势——四高三、Hadoop组成（重点）四、HDFS架构五、YARN架构六、MapReduce架构七、HDFS、YARN、MapReduce 三者关系Hadoop运行环境搭建虚拟机的准备一、安装虚拟机二、虚拟机配置及环境准备Hadoop运行模式一、本地运行模式二、伪分布式模式三、完全分布式模式**1.虚拟机准备****2.准备一个集群分发脚本****3.SSH 无密登录配置****

sheng的学习笔记-hadoop,MapReduce,yarn,hdfs框架原理

coldstarry的专栏

06-26

1313

hadoop,mapreduce,yarn,hdfs

Hadoop YARN（产生背景，YARN架构，yarn作业提交全过程，jobhistoryserver使用，资源调度器，yarn常用命令）

May_J_Oldhu的博客

09-15

440

Hadoop YARN一.YARN基础1.YARN产生背景2.YARN概述二.YARN架构三.YARN工作机制**工作机制详解**1.作业提交2.作业初始化3.任务分配4.任务运行5.作业完成四.Yarn提交MapReduce程序1.运行框架自带的Mapreduce程序2.执行WordCount程序3.启动JobHistoryserver五.Yarn的资源调度器六.Yarn常用命令1.任务管理2.节点管理一.YARN基础 1.YARN产生背景在hadoop1.x中，MapReduce采用的是Master

MapReduce job提交到Yarn的运行流程

FlatTiger的博客

02-18

346

MR程序提交到客户端所在节点。客户端向RM申请App_ID。 RM返回资源提交路径和App_ID。客户端提交资源到指定路径，资源包括：split切片信息、job配置信息、jar包等。向RM申请运行App的资源。 RM把请求初始化为一个task，进入任务队列等待执行。 NM领取到task任务后，创建container容器，并在容器中生成AppMaster。 AppMaster在资源路径下载job所需文件到本地。 AppMaster向RM申请运行maptask的容器。 NM领取到task任务，创建co..

MR程序在yarn上的运行基本流程

Werkple的博客

03-25

800

1:客户端提交job到resourceManger 2:resourceManger创建job任务返回工作路径给客户端 3:客户端接收到工作路径后会在HDFS上创建工作目录,初始化job 创建工作目录: 1读取默认的配置自定义配置(conf.xml) 2计算要处理的数据(计算任务切片) 3上传jar包 4:客户端向resourceManger请求创建任务的容器(1core,1.5G) 5:r...

大数据之MapReduce了解及MapReduce Job提交到Yarn的工作流程

Sylvia_D507的博客

10-21

819

MapReduce主要用途是进行分布式计算一、MapReduce理解宏观上的理解： MapReduce仅仅是作为客户端（Client）把代码程序提交到Yarn平台上，MapReduce jar在Yarn上运行，属于客户端提交的过程，hdfs上传的命令。 MapReduce指的是Map()和Reduce()函数，正常写的代码是需要继承它的，但是企业上进行生产一般是不会用它，但是它也至关重要，因为...

MapReduce任务在hadoop集群上的运行流程原理：MR任务提交给yarn后

一枚小白的博客

12-02

465

job任务在hadoop集群上的运行流程原理：yarn为调度资源（申请机器，运行任务），确定切片数量；数据上传HDFS；mapereduce全程

Yarn与Mr

weixin_34401479的博客

11-01

510

2019独角兽企业重金招聘Python工程师标准>>> ...

0916 MR作业提交流程 Yarn-HA WC代码作业提交源码

ruanmianmian1的博客

09-16

604

1 作业提交流程客户端提交MR作业 Yarn的资源管理器Resource Manager 协调集群计算资源的分配 Yarn的节点管理器 NodeManager 启动并监控集群中计算容器 MapReduce中的Application Master 协调MR作业中的任务运行 ApplicationMaster和MR运行在容器中，容器由resourceManager调度由NodeManag...

Mr 结合yarn的运行流程(运行逻辑)

生存，生活，差之毫厘谬以千里也

05-28

836

1、为什么要使用YARN？为了提升集群的利用率、资源统一管理，使用YARN为上层应用提供统一的资源管理和调度的平台。 2、YARN的优势？资源的统一管理和调度：集群中所有节点的资源(内存、CPU、磁盘、网络等)抽象为Container。计算框架需要资源进行运算任务时需要向YARN申请Container， YARN按照特定的策略对资源进行调度进行Container的...

mr向集群提交mr任务的两种方式

weixin_43797368的博客

08-12

2057

方式一：把IDEA中写好的程序打jar包然后托入集群中执行如下命令运行： Hadoop jar wc.jar 全类名 /输入路径 /输出路径 hadoop jar wc.jar com.atguigu.wordcount.WordCountDriver /user/atguigu/input /user/atguigu/output 方式二：在Windows上向集群提交任务（1)需要在WordCountDriver添加一些配置信息设置hdfs NameNode的地址： conf.set(“fs.def

MapReduce提交集群运行，Yarn调度MR流程

weixin_33675507的博客

07-03

224

一、在windows下调试产生不兼容问题时下载winunil.rar包解压覆盖配置文件到hadoop包bin目录下即可。 Map： 1.切分单词String line = value.toString(); 2.遍历单词数据输出context.write(new Text(),new IntWritable()); 复制代码Reduce: 1.拿到map给过来的结果对数据中的value.list...

请阐述MapReduce1.0体系结构中存在的问题