客户华为RH5885H V3服务器硬件配置:2208raid卡+2x 900G HDD硬盘,客户在机房现场发现两个硬盘同时故障,然后尝试拔盘手动恢复,此时已经影响客户业务下发,需要分析硬盘同时故障原因。
解决方案
1. 分析日志硬盘disk0和disk1无坏道,无异常,查看各盘的media error count、other error count和Predictive Failure Count,可以看到都是0。
2. 在message日志中,对应时间点无Raid卡,磁盘等异常打印。
3. 在Raid卡sasraidlog日志中,发现如下打印:
在03:36:51时间,看到wide port 0 lost link on Phy X的打印时,说明RAID卡-SAS线缆-硬盘背板PortB之间的链路出现了不停的闪断。
16153: 19-01-14,03:36:40 WARNING:SAS wide port 0 lost link on PHY 4
16154: 19-01-14,03:36:40 WARNING:SAS wide port 0 los