
mapreduce
Java架构师联盟
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
透过生活看实质,源码解析分布式计算框架MapReduce(附源码)
目录 思想引入 MapReduce处理流程 MapReduce 具体分为四步: MapReduce中的几个名词: MapReduce执行流程: map task 线程 1.1 map阶段 1.2 shuffle write阶段 reduce task 线程 2.1 shuffle read阶段 2.2 reduce阶段 MapReduce概述 MapReduce的定义 ...原创 2020-05-06 20:55:58 · 760 阅读 · 0 评论 -
hdfs-mapreduce处理流程(二)
1、问题:在这张图中有几个工人,几个工厂 工人: 4 --map处理程序 厂: 3 --reduce相当于最后的工厂 组装 2、map端进行了什么事:砍树这一步叫做split 过程 砍树—把我们hdfs的文件进行切割(砍树) ----- 默认与block块的大小一 致(128M) split=block=maptask 2.1当然为了更好的处理,在计算资源充足的情况下,把split变大设置为25...原创 2020-02-25 22:37:07 · 428 阅读 · 0 评论 -
hadoop-MapReduce处理流程(一)生活实例对比
先来出道题引入一个重要的思想----分布式计算思想 在上面的这个图中,主要是对一个1T的文件进行排序操作,是不是可以将这个大文件切割成一个个的小文件尽心处理,就可以解决啊,但是按照正常来说,一共需要三次io,读取文件进行切割一次,小文件内部排序一次,然后对小文件进行合并形成大文件一次,一共三次,并且大家是知道的,磁盘的io是非常慢的,所以,我能不能减少磁盘io的数量啊------这也就产生了第二...原创 2020-02-25 22:34:52 · 414 阅读 · 0 评论