Hadoop MapReduce 常见问题【二】

最新推荐文章于 2022-04-17 21:45:21 发布

原创最新推荐文章于 2022-04-17 21:45:21 发布 · 503 阅读

·

1

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

Hadoop生态圈专栏收录该内容

11 篇文章

订阅专栏

本文深入解析了MapReduce的核心思想，包括其分治策略、计算跟随数据的原则，以及Map、Reduce、Shuffle等关键阶段的工作机制。同时，对比了Hadoop 1与Hadoop 2的主要区别，并探讨了Shuffle阶段作为性能调优的关键所在。

MapReduce***
1.mapreduce核心思想？
1.分治思想；2.移动计算而不是移动数据

2.特点：计算跟着数据走，批处理，高容错，扩展好

3.MR的几个阶段？
split:Split的大小默认等于 Block大小，决定map任务数量；
map：split切片输入，key-value输出
reduce:由若干Reduce任务组成，数量由程序指定
shuffle:中间环节，包括分区（哈希取模）将map中间结果输出到buffer区，然后分区排序，当达到阈值溢将
一个临时文件写到磁盘上，map任务结束前临时文件合并为一个map文件，fetch等

Partition决定了Map任务输出的每条数据放入哪个分区，交给哪个Reduce任务处理
• Reduce任务的数量决定了Partition数量
• Partition编号 = Reduce任务编号 =“key hashcode % reduce task number”

Hadoop1和2的区别？
1.1有单点故障，资源描述简单，负载太重；2融合yarn 高可用，高扩展，资源有专门的角色管理，任务和资源分开

4.mapreduce key-value输入输出的原因？
答：
1.通用数据格式
2.shuffle过程要排序合并，哈希取模可以决定分区partition

5.shuffle是调优关键？
答：shuffle的过程：先写内存（内存中先分区后排序）然后溢写硬盘再合并（大文件的分区排序）

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。