Job作业执行流程

本文深入解析了Hadoop MR作业的提交流程,从作业编写到集群提交,包括Job状态监控、作业提交机制、与ResourceManager的交互以及作业在Yarn上的运行过程,详细阐述了每个关键步骤的作用和实现原理。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Job作业提交流程:

1、我们在进行MR的编写完成后,

a、会调用job.waitForCompletion(boolean)来将作业提交到集群并等待作业完成。

b、在该方法内部,首先会判断Job状态并调用submit()方法进行提交,将任务提交到集群后会立刻返回;

c、提交后,会判断waitForCompletion()的参数布尔变量,若为true的话,表示在作业进行的过程中会实时地进行状态监控并打印输出其状态,调用monitorAndPrintJob()。否则,首先会获取线程休眠间隔时间(默认为5000ms),其次循环调用isComplete()方法来获取任务执行状态,未完成的话,启动线程休眠配置指定的时间,如此循环,知道任务执行完成或则失败。


2、submit()方法内部

1、确保作业状态;

2、调用setUserNewAPI()来进行api设置 ;

3、调用connect()方法连接RM(ResourceManager);

4、获取JobSubmitter对象,getJobSubmitter(fs,client)

5、submitter对象进行提交作业的提交:submitJobInternalJob.this,cluster

3、在连接RM方法connnect()内部,

a、会创建Cluster实例,Cluster构造函数内部重要的是初始化部分

b、在初始化函数内部,使用java.util.ServiceLoader创建客户端代理,目前包含两个代理对象,LocalClientProtocolProvider(本地作业)YarnClientProtocolProvideryarn作业),此处会根据mapreduce.framework.name的配置创建相应的客户端。

通过LocalClientProtocolProvider创建LocalJobRunner对象,在此就不进行详细说明了。


通过YarnClientProtocolProvider创建YarnRunner对象,YarnRunner保证当前JobClient运行在Yarn上。


c、YarnRunner实例化的过程中,创建客户端代理的流程如下:

Cluster->ClientProtocol(YarnRunner)->ResourceMgrDelegate->client(YarnClientImpl)->rmClient(ApplicationClientProtocol)

YarnClientImplserviceStart阶段会创建RPC代理,注意其中的协议

Cluster:主要是提供一个访问map/reduce集群的途径;

YarnRunner: 保证当前JobClient运行在Yarn,在实例化的过程中创建ResourceMgrDelegate;

ResourceMgrDelegate:主要负责与RM进行信息交互;

YarnClientImpl:主要负责实例化rmClient;

rmClient:是各个客户端与RM交互的协议,主要是负责提交或终止Job任务和获取信息(applicationscluster metricsnodesqueuesACLs)


4、接下来,看最核心的部分,JobSubmitter.submitJobInternal(Job,Cluster),主要负责将作业提交到系统上运行,主要包括:

a、校验作业的输入输出checkSpecs(Job),主要是确保输出目录是否设置且在FS上不存在;

b、通过JobSubmissionFiles来获取Job运行时资源文件存放的目录,属性信息key

yarn.app.mapreduce.am.staging-dir,默认的目录为/tmp/hadoop-yarn/staging/hadoop/.staging/

JobSubmissionFiles.getStagingDir():在方法内部进行判断若目录存在则判断其所属关系及操作权限;不存在的话,创建并赋予权限700;

c、为缓存中的Job组织必须的统计信息,设置主机名及地址信息,获取jobId,获取提交目录,/tmp/hadoop-yarn/staging/root/.staging/job_1395778831382_0002;

d、拷贝作业的jar和配置信息到分布式文件系统上的map-reduce系统目录,调用copyAndConfigureFiles(job,submitJobDir),主要是拷贝-libjars,-files,-archives属性对应的信息至submitJobDir;

e、计算作业的输入分片数,调用writeSplits()job.split,job.splitmetainfo;

f、调用writeConf(conf,submitJobFile)job.xml文件写入到JobTracker的文件系统;

g、提交作业到JobTracker并监控器状态,调用yarnRunner对象的submitJob(jobId,submitJobDir,job.getCredentials())


5、真正的提交在YarnRunner对象的submitJob(…)方法内部:


问题1:在进行MR编写时,Hadoop 2.x若引用了hadoop-*-mr1-*.jar的话,在使用Java进行调用的时候,会使用本地方式运行;而使用hadoop jar进行调用时,才会提交到yarn环境上运行。


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值