大数据学习8

原创于 2018-12-31 10:19:15 发布 · 226 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

大数据专栏收录该内容

18 篇文章

订阅专栏

本文详细解析了MapReduce的工作原理及流程，包括其优势与局限性。通过具体案例，如词频统计，展示了数据处理的全过程，从文件分割、映射、洗牌到归约，最终得出结果。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

mapreduce优点：海量数据离线处理&易开法&容易运行

mapreduce缺点：无法实现流式计算

分布式计算小案例：统计海量数据文件中的词频

流程分析：

1.首先将输入的文件拆分成多个文件快（spliting）

2.每台机器统计每个文件快中的单词次数，根据空格等正则来拆分单词（mapping）

3.每个节点将会吧相同的单词发送到特定的某台机器上，这样每个机器就会知道特定的单词的数量（shuffing）

4.汇总单词数量（reducing）

5返回结果

mapReduce流程：

input <k1,v1> -> map -> <k2,v2> ->combine -> <k2,v2..> -> reduce -><k3,v3>

解释：

输入的文件hadoop会按照文件中字符的偏移量来作为k1，v1就表示该偏移量后面的内容

经过mapping过程后，每个节点会得到相应字符的统计数这时k2表示单词，v2表示个数

k3，v3与k2，v2相同

下图为流程图：

mr核心概念：

blocksize与split之间的关系：

一个文件会被拆分成多个block，这是hdfs的最小存储单元

每个block会被拆分成多个split，这是mr的最小计算单元。此时的split就对应为上图的k1，v1

每个split会交给一个mapperTask来处理，也就是map过程

之后就是shuffle过程和reduce过程

mapreduce2.x架构图

博客等级

码龄10年

129
原创

18
点赞

65
收藏

19
粉丝

关注

私信

分类专栏

展开全部收起

上一篇：: 大数据学习7

下一篇：: 大数据学习9

最新评论

linux下配置网络环境
m0_61790288: 按你操作做了还是不成功
jvm常用调优策略
Tisfy: 这篇帖子，就好比黑暗中刺裂夜空的闪电
linux之设置nginx域名转发
Hi丶ImViper: 感谢博主分享，讲的挺不错，希望后面有更多的文章！欢迎回访我的博客：https://blog.youkuaiyun.com/weixin_43314519
redisCluster之主观下线与客观下线
「已注销」: 《Redis设计与实现》中说集群模式下选举主节点是从节点向主节点要求投票，过半的成为新的主节点。看偏移量的是哨兵模式下的选举，偏移量最大的成为新的主节点
hashmap并发情况下的成环原因
karaysn: 如果是A->B->null,这样子, 线程一,拿到A,e为A后暂停了, 线程二继续执行,一直到执行结束,当前的结果是 B->A->null. 文章中说 ---------当线程一执行到e.next = new table[i] 的时候，由于线程二之前数据迁移的原因导致此时new table[i] 上就有ertry存在，所以线程一执行的时候，会将next节点，设置为自己------- 线程一,e.next = new table[i], 这里 new table[i] 为 B, e.next = B, 这里会将next节点,设置为自己,为不太能理解了,麻烦再解释一下,谢谢啦. 我更倾向于这篇文章说的, http://www.imooc.com/article/details/id/292265

大家在看

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。