最近在学习如何对Job的性能调优,大概主要有以下几点:
一、通过combiner来减少网络流量
二、map与reduce的数量
三、减少小文件的输入
四、调整拉取map结果的线程数
五、使用压缩
六、重用JVM
七、尽量让reduce merge发生在内存
八、根据猜测执行来运行
九、代码重构与算法重写
十、设置noatime
默认情况下,linux会把文件访问的时间atime做记录,不过一般情况下我们是不需要这些访问时间的,因此,我们可以使用noatime和nodiratime来减少对I/O的写操作!
这里先列一个框架先,等有空了再一一补上!!!
Hadoop Job性能优化指南
本文介绍了Hadoop Job性能调优的关键策略,包括利用combiner减少网络流量、合理设置map与reduce数量、减少小文件输入、调整拉取map结果线程数、使用压缩、重用JVM、在内存中进行reducemerge、启用猜测执行机制、代码重构及算法优化等。同时提出了禁用Linux系统的atime记录以减少不必要的I/O操作。
1462

被折叠的 条评论
为什么被折叠?



