大数据之-Hadoop3.x_MapReduce_核心思想---大数据之hadoop3.x工作笔记0083

添柴程序猿

于 2021-07-04 14:14:19 发布

阅读量284

点赞数

CC 4.0 BY-SA版权

分类专栏：集群&算法&量子计算文章标签： MapReduce原理 hadoop 大数据

本文为博主原创文章，未经博主添柴程序猿允许不得转载违者追究法律责任。

本文链接：https://blog.youkuaiyun.com/lidew521/article/details/118460457

集群&算法&量子计算专栏收录该内容

259 篇文章 ¥9.90 ¥99.90

订阅专栏

超级会员免费看

本文介绍了Hadoop MapReduce的工作原理，通过举例说明如何将任务拆分成多个小任务并行处理，再通过Reduce阶段合并结果，提升计算速度。Map阶段将数据切分为128M块并行处理，Reduce阶段的并发任务也可并行执行。然而，MapReduce仅支持一个Map和一个Reduce阶段，若业务逻辑复杂，需要多个步骤处理，会导致效率降低，此时更适合使用Spark等支持内存处理的框架。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

然后我们再来看一下这个MapReduce是如何工作的,再说一遍吧,这个MapReduce,已经说了n遍了,这里大体再说一遍.

比如上面我们有个需求,我们需要把统计两本书中的,a-p 开头的单词出现的个数,放到一起,然后

q-z开头的单词出现的个数,放到一起,比如这里第一本书大小是200m,第二本书大小是,100m,这个时候.如果让你去做这个工作怎么做?

首先拿到两张纸,一张放a-p的结果,一张放q-z的统计结果,

然后去读,第一行,比如碰到了hadoop,h在a-p,就在a-p的那个纸上写上hadoop 1出现了一次了表示,

然后再去读取,Spark Hive,读到这个单词的时候,会按照空格,把spark,弄出来,然后把hive也弄出来,

把s放到q-z那张纸上去,写上spark 1,然后把hive 写到a-p那张纸上去,写上hive 1.这样来做.

但一个人做太慢了,这个是你可

了解本专栏

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

添柴程序猿 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。