Reduce 优化(mapr)

本文详细介绍了在使用MapReduce进行大规模数据处理时,如何通过合理设计桶大小、优化reduce copy速率、调整merge阶段参数以及调整job shuffle merge百分比等关键策略来提升作业性能。这些方法有助于减少数据传输延迟,提高数据合并效率,从而显著加快处理速度。
1、合理设计桶的大小,插入桶的时候,桶的数目和reduce的数目一致,结合map的输出大小合理设置桶的大小,否则在reduce阶段就会非常慢。
2、查看reduce的copy的速率,如果map output的文件过多,mapred.reduce.parallel.copies默认是12(mapr),表示一个reduce会开启12个线程向map阶段copy数据。可以加大次参数。
3、reduce 从map阶段copy数据后会有merge阶段。同map阶段的merge一样io.sort.factor决定。表示可以有多少个stream并行merge数据默认为10,如果从map段取的分数大于10,则可以适当调大此参数。
4、mapred.job.shuffle.merge.percent 表示从map端拉过来的数据放在内存的百分比。(default 0.6)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值