关于mapreduce

brilliantyoho

于 2014-12-03 10:39:43 发布

阅读量377

点赞数

分类专栏： machine learning

machine learning 专栏收录该内容

12 篇文章

订阅专栏

关于mapreduce

mapreduce很适合数据之间相关性较低且数据量庞大的情况，map操作将原始数据经过特定操作打散后输出，作为中间结果，hadoop通过shuffle操作对中间结果排序，之后，reduce操作接收中间结果并进行汇总操作，最后将结果输出到文件中，从这里也可以看到在hadoop中，hdfs是mapreduce的基石。可以用下面这幅图描述map和reduce的过程：

有人用这么一句话解释mapreduce：

We want to count all the books in the library. You count up shelf #1, I count up shelf #2. That's map. The more people we get, the faster it goes.
我们要数图书馆中的所有书。你数1号书架，我数2号书架。这就是“Map”。我们人越多，数书就更快。

Now we get together and add our individual counts. That's reduce.
现在我们到一起，把所有人的统计数加在一起。这就是“Reduce”。

From:http://www.cnblogs.com/vivounicorn/archive/2011/09/20/2182433.html

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。