MapReduce的Job性能调优

本文介绍了Hadoop Job性能调优的关键策略,包括利用combiner减少网络流量、合理设置map与reduce数量、减少小文件输入、调整拉取map结果线程数、使用压缩、重用JVM、在内存中进行reducemerge、启用猜测执行机制、代码重构及算法优化等。同时提出了禁用Linux系统的atime记录以减少不必要的I/O操作。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

最近在学习如何对Job的性能调优,大概主要有以下几点:

一、通过combiner来减少网络流量

二、map与reduce的数量

三、减少小文件的输入

四、调整拉取map结果的线程数

五、使用压缩

六、重用JVM

七、尽量让reduce merge发生在内存

八、根据猜测执行来运行

九、代码重构与算法重写

十、设置noatime

默认情况下,linux会把文件访问的时间atime做记录,不过一般情况下我们是不需要这些访问时间的,因此,我们可以使用noatime和nodiratime来减少对I/O的写操作!



这里先列一个框架先,等有空了再一一补上!!!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值