大数据之-Hadoop3.x_MapReduce工作流程---大数据之hadoop3.x工作笔记0109

本文详细介绍了Hadoop3.x中MapReduce的工作流程,包括数据切片、任务提交给YARN、MapTask的启动、数据处理、环形缓冲区的工作原理、数据排序与合并、以及ReduceTask的执行过程。重点讲解了环形缓冲区的溢写策略和数据的归并排序,确保相同Key的数据被放到一起,以便于Reduce阶段的处理。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1.然后我们再去看MapReduce的详细工作流程,可以看到比如首先我们有个200m的文件ss.txt,然后首先,我们写的客户端程序,首先去

获取待处理的数据,然后根据参数配置,形成任务规划,实际上就是切片对吧.

2.然后客户端把切片好的信息,提交给yarn,这里提交的信息有job.split用来分片的,wc.jar是我们自己的处理数据的jar包,然后job.xml是

我们这个程序中配置的一些参数.

3.然后提交给yarn rm 以后,然后会首先提交给这个mrappmaster,然后我们之前说结构的时候说过,这个mrappmaster就是系统的老大,他会

去根据提交的信息,去读取有几个切片,然后开启对应的maptask去处理数据.可以看到上面就开启了两个maptask对吧.

4.然后maptask启动以后,他首先就去找inputformat对吧,这个inputformat我们说默认加载的是TextInputFormat对吧,然后这TextInputFormat有两个

方法,一个是RecorderReader,一个是isSplitable,是否可切割对吧,然

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

添柴程序猿

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值