MapReduce总结

本文详细介绍了MapReduce的工作原理,包括数据切分后的map阶段、环形缓冲区的使用、溢写过程中的归并排序算法、combiner的作用及触发条件,以及reduce阶段的copy、sort和reduce操作。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

MapReduce:
在数据被切分以后,进入map阶段,会向环形缓冲区中写入数据。环形缓冲区的大小默认是100m,split的大小默认是128M。在环形缓冲区中一边写入数据,一边写入这些数据的索引。当达到80%以后,这部分会被锁定,往剩下的20%中写入数据,一边写入索引,一边写入数据。这样值循环。假如缓冲区都写满了,数据还没有溢写到磁盘,那么map就会阻塞,不再往里边写数据了。

map端溢写的时候是spill,一边排序,一边溢写,这时候的排序使用的是归并排序算法。

溢写之后是combiner:合并。在map端对同一个key进行合并。环形缓冲区的大小达到80%以后会进行排序和溢写。缓冲区中的数据溢写3次之后会生成3个小文件,会对这3个小文件再次进行combiner,这个数字可以调整。也就是说溢写次数大于3次(可修改),会触发combiner操作。

reduce阶段有三个操作:

copy

sort

reduce

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值