MapReduce
murphyZ
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
[1] - Mapreduce概述
一、mapreduce编程模型 一种分布式计算模型。 MapReduce将这个并行计算过程抽象到两个函数。 Map(映射):对一些独立元素组成的列表的每一个元素进行指定的操作,可以高度并行。 Reduce(化简 归约):对一个列表的元素进行合并。 一个简单的MapReduce程序只需要指定map()、reduce()、input和output,剩下的事由框架完成。 二、mapredu...原创 2019-03-01 10:23:12 · 522 阅读 · 0 评论 -
[2] - mapreduce的shuffle流程详解
一、MapReduce执行全流程(包含shuffle) 1、mr执行流程图 2、流程文字描述: 1、首先准备好待处理文本(一般是存储在hdfs上的日志文件等) 2、客户端提交前,先获取待处理数据的信息,根据参数配置,形成一个任务分配的规划(数据切片), 有几个切片就对应那几个map 3、提交切片信息 4、计算出maptask的数量 5、存在一个inputFormat父类,hadoop使用的是Fi...原创 2019-03-01 11:08:09 · 1126 阅读 · 0 评论
分享