本文记录了网络设备心跳线带宽高导致虚拟化平台不稳定的问题处理一例。
一、问题现象
生成环境中突然出现虚拟化平台承载的虚拟机运行偶发异常,部分宿主机上的虚拟机挂死,且无法正常重启、迁移,必须对该宿主机进行重启才能恢复正常。
二、问题分析
1、虚拟化平台核查
经检查,问题宿主机反复报“由于连接性问题导致失去对卷 676baa0b-0cefe55c-b283-340a98ac2bf3 (Lun-1 ) 的访问权。正在进行还原尝试,稍后将报告结果。”的事件:

同时在极短时间内又报“出现连接性问题后成功恢复对卷 676baa0b-0cefe55c-b283-340a98ac2bf3 (Lun-1) 的访问权 ”:

可见该虚拟化平台存储网络不太稳定。
2、存储网络核查
经核查,该虚拟化平台存储网络为两台交换机堆叠而成,宿主机网卡配置为跨框主备模式,存储主机网卡配置为跨框链路聚合模式,当宿主机主网卡在备交换机时,在交换机的堆叠链路上形成了大量跨框组播、广播包流量,叠加正常hash的数据流量,导致横连堆叠线流量超高,形成网络问题,测试发现,一旦横连流量冲高时,宿主机便会出现卷连接不稳定,导致上层虚拟机运行异常。
三、解决办法
1、修改存储交换机存储服务器的端口组模式
修改存储服务器对应两个上行交换机接口的端口组模式,

最低0.47元/天 解锁文章
899

被折叠的 条评论
为什么被折叠?



