hadoop学习从0开始-mapreduce

CodingBoy121

于 2016-04-06 17:23:19 发布

阅读量600

点赞数

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/u013676711/article/details/51075429

Mapper过程详解：

1.首先根据输入进行分片，inputsplit，每个分片的大小是固定的，分片的大小跟数据库的大小是相同的，比如默认是64M，如果输入文件有两个，32M和72M，会有三个分片，不足的是一个，超过的72M会分为两个，一个是8M，另一个是64M。

2,第二阶段是根据规则，生成键值对，键是文本位置，值是文本内容。

3.调用mapper的map类，每一个键值对都会调用一次map类，每一个mapper都是一个进程。

4.然后根据键来对数据进行分区，同一个键值的数据放到同一个分区内。分区的数目就是reducer运行的数量。

5.第五阶段是对每个分区的数据进行排序。先按照键进行排序，键相同的按照相同键的数值进行排序。如果有第六阶段，进入第六阶段，如果没有，直接作为文件输出。

6.第六阶段是对键相同的进行规约，执行reduce过程，该阶段数据量会减少。然后输出成linux文件。

Reducer过程详解：

1.reducer获取多个mapper的输出，将其复制到本地。

2.将复制的数据进行合并，对合并的数据进行排序。

3.对相同键的调用一次reduce方法，这些数据会生成linux文件，然后写入hdfs

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。