MR要点汇总、Yarn

最新推荐文章于 2021-12-06 23:06:50 发布

原创最新推荐文章于 2021-12-06 23:06:50 发布 · 251 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

大数据同时被 3 个专栏收录

51 篇文章

订阅专栏

8 篇文章

订阅专栏

2 篇文章

订阅专栏

本文介绍了大数据领域的MapReduce和YARN。MapReduce中强调了切片逻辑、map与reduce的关系，以及优化策略。切片大小可调节，map数量由切片决定，reduce数量人为设定。reduce的排序依赖map输出，MapReduce速度关键在于减少shuffle数据。YARN的工作流程包括客户端分析文件，资源管理器(RM)调度，应用管理器(App Mstr)分配任务到容器(Container)。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

大数据

MapReduce

随心记：

1.默认切片=块所以默认map就处理一个块

2.切片大小可以人为调节，故一个切片可以对应一个或者多个map，也可以一个切片对应多个块（当要求切片数据>128M时）

3.切片是逻辑的，属于计算层

4.map数量由切片决定 reduce数量由人决定，所以map和reduce可以是任何对应关系

5.reduce最优化案例分析

1.5组数据

2.3人，每人3个程序

6.以一条记录为单位调取一个map方法，默认一行是一个记录

7.map输入以记录为单位，但记录的样式由切片决定，切片可以将输入数据样式化

8.reduce输入以组为单位，一组的可以有多条记录

9.”相同“的key为一组，调用一次reduce方法，方法内迭代这一组数据进行计算

10.map的<k,v>的k主要做特征抽取

11.MapReduce运算速度快的核心是减少shuffer的数据量

12.reduce的排序强依赖map输出的排序结果

没有重排序的能力，仅可以归并数据

13.就近原则优点：数据没有移动，不会产生IO

14.为减少数据移动做法：

1、磁盘设大 2、副本设多

yarn

客户端：分析文件，做切片清单，产生配置信息，jar包（Map类、Reduce类）

RM统计资源DN情况

App Mstr调度作业

在这里插入图片描述

客户端访问RM，RM创建App Mstr调度，App Mstr拿清单（Map个数），返回RM申请Map/Resour，RM分配容器Container放Map任务，容器Container心跳App Mstr调度
在这里插入图片描述

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。