近期业务需求使用ambari安装了新的hadoop群集,大概30台服务器,安装比较顺利,但是群集安装后,job运行的很慢,但可以完成,
反复查找问题,hadoop参数调整优化,代码开发检查,反复的测试,群集的本地读写能力,就是慢,
经过几天的奋战,终于找到问题的原因,竟然是有各别的datanode节点网络有问题,scp数据的时候每秒才5M,正常的话是85~110M左右,
后来dd个4G的数据,逐一排查服务器,scp scp scp,终于找到3台服务器网络问题,原来是水晶头问题,重新做了水晶头,恢复正常了。
原来40分钟的job10分钟执行完了。
记录下,提醒朋友们,hadoop部署前已经要好好检查底层的基础环境,不然就会遇到各种问题,不断的排查了。
反复查找问题,hadoop参数调整优化,代码开发检查,反复的测试,群集的本地读写能力,就是慢,
经过几天的奋战,终于找到问题的原因,竟然是有各别的datanode节点网络有问题,scp数据的时候每秒才5M,正常的话是85~110M左右,
后来dd个4G的数据,逐一排查服务器,scp scp scp,终于找到3台服务器网络问题,原来是水晶头问题,重新做了水晶头,恢复正常了。
原来40分钟的job10分钟执行完了。
记录下,提醒朋友们,hadoop部署前已经要好好检查底层的基础环境,不然就会遇到各种问题,不断的排查了。
在使用ambari成功部署30台服务器组成的Hadoop集群后,发现作业运行缓慢。经过多次排查和优化,最终发现是部分datanode节点的网络水晶头问题导致scp数据速度仅5M/s,正常情况下应为85~110M/s。通过更换水晶头,解决了网络瓶颈,使得40分钟的作业缩短到10分钟完成。
3747

被折叠的 条评论
为什么被折叠?



