hadoop单节点回顾



回顾


1.MapReduce
input>map>shuffle>reduce>output
2.wordcount
输入input <keyvalue> 
map处理
shuffle >默认内存 100M
当内存不够的时候回触发溢写操作,本地磁盘
每个map task 都有一个内存缓冲区,存储map输出的结果
spill
partition
sort > MapReduce框架默认是按照key进行排序的
merge合并溢写文件
典型的归并排序方式
reduce开启线程到对应的map上去copy数据>reduce输入
group分组,将相同key的value放在一起
<hadoop,list(1,1,1)>


=======================================================================================================================


MapReduce优化combine

1.combine可以理解为是在map端的reduce操作
2.combine是作为一个优化手段,可选项,不是所有的MapReduce程序都适合combine
3.combine的优化是一定不能够改变最终的输出结果
4.好处:
减少网络的传输
减轻磁盘的IO负载
5.适合的场景:比如求最大值,求和,,,不适合求中间值
6.combine是对一个map的,而reduce是对多个map进行合并
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值