MapReduce代码和优化

1. IDEA 配置

2. Job 类

2.1 Job.waitForCompletion

 2.2 Job. submit

submit():总共可分为两大步:第一步是和集群进行连接,第二步是往集群提交作业。

connect() 就是为了与集群进行连接,底层使用了RPC协议,针对本地集群和Yarn集群两个不同的集群,给我们封装了localJobRunner和YARNRunner,两个真正的与集群通信的客户端。

连接后,就可以提交作业了 

3. MapTask 类

3.1 整体概述

3.2 准备部分

3.3 工作部分

3.4  InputFormat (TextInputFormat)解析

3.4.1 getSplits 逻辑规划

3.4.2 createRecordReader

3.5 Mapper类

 3.6 OutputCollector 

 3.7 MapOutputBuffer

3.7.1 内存缓冲区初始化

回顾下流程

 MapTask在run()方法中就已经把收集器创建好了,并进行了分区,环形缓冲区初始化,在调用write()方法进行写时,底层调用的就是收集器的collect(),往缓冲区里写(有reduceTask的话)。

进入到sortAndSpill():

 

  

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值