
mapreduce
等你下课_
努力起码可以大器晚成
展开
-
mapreduce1的不足
https://bbs.aliyun.com/detail/331270.html1、jobtracker是mapreduce的集中处理点,存在单点故障2、JobTracker 完成了太多的任务,造成了过多的资源消耗,当 map-reduce job 非常多的时候,会造成很大的内存开销,潜在来说,也增加了 JobTracker fail 的风险3、在 TaskTracker 端,以 m...原创 2019-09-07 14:41:07 · 1119 阅读 · 0 评论 -
mapreduce的计数器
https://www.cnblogs.com/codeOfLife/p/5521356.html计数器是用来记录job的执行进度和状态的。它的作用可以理解为日志mapreduce为每个任务维护了若干个内置计数器,主要分为两大类:任务计数器和作业计数器任务计数器在任务执行过程中,任务计数器采集任务的相关信息,每个作业的所有任务的结果会被聚集起来。例如,MAP_INPUT_RECOR...原创 2019-09-08 15:43:22 · 252 阅读 · 0 评论 -
input split 切片
https://blog.youkuaiyun.com/dr_guo/article/details/51150278https://blog.youkuaiyun.com/samhacker/article/details/23089157输入分片(Input Split)在进行map计算之前,mapreduce会根据输入文件计算输入分片(input split),每个输入分片(input split)针对...原创 2019-09-08 13:12:13 · 654 阅读 · 0 评论 -
如何在hadoop控制map个数
https://blog.youkuaiyun.com/lylcore/article/details/9136555hadooop提供了一个设置map个数的参数mapred.map.tasks,我们可以通过这个参数来控制map的个数。但是通过这种方式设置map的个数,并不是每次都有效的。原因是mapred.map.tasks只是一个hadoop的参考数值,最终map的个数,还取决于其他的因素。为了方便...原创 2019-09-08 12:57:52 · 223 阅读 · 0 评论 -
reduce如何知道从哪台机器上获取map输出
通过MRAPPMaster获取哪些节点有map输出MRAPPMaster负责任务的调度与监控,当map执行结束后,会汇报给MRAPPMaster。reduce中的一个线程会定期询问MRAPPMaster以便获取map输出的位置。...原创 2019-09-08 12:18:01 · 663 阅读 · 0 评论 -
shuffle机制存在的缺陷
每个map可能会生成多个spill文件,写入磁盘时,会产生较多的磁盘IO。map任务和reduce任务很多时,会产生很多网络IO。原创 2019-09-08 12:08:59 · 338 阅读 · 0 评论 -
mapreduce优化
https://www.cnblogs.com/felixzh/p/8604188.html使用合理的map数量和reduce数量map数量由切片split决定(过多小文件问题)reduce数量过少:如果数据量很大,会导致这个reduce异常的慢,从而导致这个任务不能结束,也有可能会OOM 过多:产生的小文件太多,合并起来代价太高,namenode的内存占用也会增大。map端:...原创 2019-09-08 11:46:28 · 105 阅读 · 0 评论 -
combiner()何时被调用
map端环形内存缓冲区达到阈值溢出成spill文件将多个溢出的spill文件归并成一个大文件时(超过3个文件则触发)https://blog.youkuaiyun.com/qq_34471305/article/details/78649865...原创 2019-09-08 11:29:19 · 243 阅读 · 0 评论 -
map端shuffle
https://blog.youkuaiyun.com/lb812913059/article/details/79899644https://blog.youkuaiyun.com/ASN_forever/article/details/81233547https://blog.youkuaiyun.com/weixin_43823423/article/details/85986538Map端shufflem...原创 2019-09-08 00:34:33 · 478 阅读 · 0 评论 -
reduce端shuffle
https://blog.youkuaiyun.com/lb812913059/article/details/79899798https://www.cnblogs.com/gzshan/p/11161944.htmlReduce端shuffleReduce端的shuffle主要包括三个阶段,copy,sort(merge),reduceMap的输出文件放置在运行MapTask的NodeMan...原创 2019-09-08 00:34:24 · 1007 阅读 · 0 评论 -
mapreduce运行机制
https://blog.youkuaiyun.com/lb812913059/article/details/79898768Map阶段由一定数量的 Map Task组成1. 输入数据格式解析: InputFormat2. 输入数据处理: Mapper3. 本地合并: Combiner(local reduce)4. 数据分组: PartitionerReduce阶段由一定数量的 Reduc...原创 2019-09-07 14:52:50 · 194 阅读 · 0 评论 -
mapreduce的工作机制(yarn简介),以及mapreduce1和mapreduce2的区别
https://www.cnblogs.com/frankdeng/p/9311474.htmlhttp://dongxicheng.org/mapreduce-nextgen/yarnmrv2-resource-manager-resource-manager/mapreduce1中工作机制主要包括客户端,jobtracker,tasktrackerJobtracker协调作业的运行...原创 2019-09-09 06:31:26 · 1131 阅读 · 0 评论