在工作中遇到一个特别恶心的故障,抱着电脑来来回回测试折腾了一个多星期。。。。
拓扑如上图,网关在核心上,SW1,2,3是接入直连核心,每台接入下挂三个AP。(所有设备均为H3C设备,核心为S10506)。
故障场景:用户在交换机SW1和SW2和SW3之间漫游时会出现几分钟到十几分钟的断网时间才会从新上线。之前怀疑是DHCP租期,STP收敛。以及AP等问题,均排查
过后,发现故障依旧存在。
为了重现故障场景,我拿着电脑长PING网关,在SW1漫游至SW2时出现断网现象,重复测试了3次均是如此。此时在核心交换机查看MAC地址表和ARP表项发现了问题,
我电脑的MAC地址已经到G1/0/1口,但是我的ARP表项还在G1/0/0口,ARP表项和MAC地址表项没有同步导致断网发生,此时清空核心的ARP表项,电脑瞬间上线,故障恢复。
关于这个问题曾经咨询了华三的400热线,这里吐槽一下,他们的技术人员说我电脑的MAC地址已经到G1/0/1口,但是我的ARP表项还在G1/0/0口这个日志是我们伪造的,之后
拍了图片又说这种情况是BUG没法解决,真的是无语了。同时又咨询了华为的专家,他们告诉了我一条命令 mac-address update arp 。但是因为H3C不支持这条命令,只能另想
办法解决问题。
因为MAC和ARP不同步,那么我在中间做一台汇聚,核心一根线下来就没问题了,修改后的拓扑如下所示: