
hadoop
文章平均质量分 86
touch_future
这个作者很懒,什么都没留下…
展开
-
hadoop map reduce 阶段笔记
shuffle and sortMR 框架保证:每个 reducer 的输入都是按照 key 键排过序的。shuffle:将map输出结果送到reducer和排序的功能。1) map:每个map task将结果输出到环形内存缓冲区,当到达一定阈值,则启动一个后台进程将缓存中的数据 1: 按照 reduce 阶段 reducer 的个数将数据分区,然后在每个分区里面的数据按照key键值排原创 2016-12-01 22:52:02 · 688 阅读 · 0 评论 -
MapReduce 的过程详解
从整体上,mapreduce 框架可以分为五个不同实体:1)客户端:提交 MapReduce job。2)Yarn 资源管理器(resource manager):协调集群计算资源的分配3)Yarn 节点管理器(node manager):启动和监视集群中每个节点的计算容器。4)Mapreduce原创 2016-12-05 23:10:05 · 6912 阅读 · 0 评论 -
MapReduce 调优基本思路
mapreduce 的调优一般都是基于shuffle阶段的。下面就讲讲基本思路。调优的基本原则就是给 shuffle 阶段尽可能大的内存。但是因为map和reduce函数的执行也需要内存,所以shuffle需要多少内存需要权衡一下,比如尽量避免在 map reduce 用 哈希表等结构对数据进行聚合操作,让 map 和 reduce 占用的内存尽可能小。map 和 reduce 任务占用的原创 2016-12-07 09:12:08 · 381 阅读 · 0 评论