
MapReduce
qq_21292551
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
1.why MR?
Why MapReduce?一.将计算移动到数据二.Divide and Conquer(分而治之):MapReduce执行流程:Map映射分发Reduce聚合傻逼图:好图:Yarn执行资源分配框架结构:ResourceManager (Master)原创 2015-12-11 11:11:56 · 346 阅读 · 0 评论 -
3.MR输入格式和分片相关
一个输入分片(split)就是由单个map 处理的输入块。每一个map操作只处理一个输入分片。每个分片被划分为若干个记录,每条记录就是一个键/值对,map一个接一个地处理每条记录。(输入分片—>若干个记录—>每条记录)注:(一个split对应一个map)默认一个split对一个块,所以导致一个块一个map的概念。但split数可改变,(见下)原创 2015-12-11 11:13:32 · 538 阅读 · 0 评论 -
2.MR理论概念
下面我们看官方给出的例子:1:将Block块分割成三个Split2:每个Split对应一个mapper3: 三个mapper输出结果进行Shuffling,每个map的输出只是简单的key-value而非key-valuelist,所以洗牌的工作就是将map输出转化为reducer的输入的过程。在reducer开始之前shuffle要做的事情分为原创 2015-12-11 11:12:40 · 607 阅读 · 0 评论 -
4.MR老版流程源码解析
一个完整的Hadoop MapReduce过程可以描述如下:Client端提交MapReduce Job到JobTracker;JobTracker调度Job, 生成MapTask和ReduceTask;各TaskTracker接收MapTask和ReduceTask;TaskTracker为MapTask和ReduceTask启动新的Child Task JVM;Child Task转载 2015-12-11 11:14:43 · 445 阅读 · 0 评论 -
5.MR多文件的输入输出
1.旧API:org.apache.hadoop.mapred.lib.MultipleOutputFormat||MultipleInputFormat和org.apache.hadoop.mapred.lib.MultipleOutputs||MultipleInputsMultipleOutputFormat allowing to write the output原创 2015-12-11 11:14:04 · 1264 阅读 · 0 评论 -
6.mr中理解分区和分组
1.MapReduce中数据流动(1)最简单的过程: map - reduce(2)定制了partitioner以将map的结果送往指定reducer的过程: map - partition - reduce(3)增加了在本地先进性一次reduce(优化)过程: map - combin(本地reduce) - partition -reduce自定义一个分区方案,默认通原创 2015-12-11 11:15:24 · 3822 阅读 · 1 评论