最近集群扩充,发现新添加节点后,有两个异常
1、reduce变得很慢,速度显示为百M但进度不变
2、reduce偶尔失败,抛出Shuffle Error: Exceeded MAX_FAILED_UNIQUE_FETCHES; bailing-out.
异常分析,由于datanode没有修改hosts文件导致的,修改以后将新加机器添加到hosts,恢复正常
本文介绍了一个集群扩容过程中遇到的问题:reduce任务执行缓慢且偶尔出现ShuffleError。问题的根源在于新加入的节点未正确配置hosts文件,通过更新hosts文件解决了此问题。
最近集群扩充,发现新添加节点后,有两个异常
1、reduce变得很慢,速度显示为百M但进度不变
2、reduce偶尔失败,抛出Shuffle Error: Exceeded MAX_FAILED_UNIQUE_FETCHES; bailing-out.
异常分析,由于datanode没有修改hosts文件导致的,修改以后将新加机器添加到hosts,恢复正常
3200
1950
1555

被折叠的 条评论
为什么被折叠?
