背景
近期有台hadoop机器网络异常,上面部署了zk和journalnode服务比较重要
处理过程
1、初步检查
初期和集群内部分节点可以ping通,部分节点ping不通;
联系网络组检查,没有发现什么问题
使用单口测试,发现使用其中一个网卡时,和集群内其他节点完全ping不通,使用另一个网卡时问题复现
2、换网卡
网络组怀疑机器网卡有问题,换过网卡后问题依旧,初步判断交换机端口可能有问题;
3、换交换机端口
昨天使用单线连另一个网口时可以正常ping通;今天准备两根线都接到新的端口上(不同交换机)
4、bond无法正常工作
换到新端口后,bond配置后一直无法工作
提示:
connection activation failed master connection not found or invalid
进一步检查发现NetworkManager服务是running的;停止该服务后bond正常工作
5、关闭NetworkManager服务的开机自启动
chkconfig NetworkManager off