我们公司有唯一一台长城的服务器NS3120,有12个<?xml:namespace prefix = st1 ns = "urn:schemas-microsoft-com:office:smarttags" />250G硬盘。应该是<?xml:namespace prefix = st2 ns = "Tencent" />2005年8月份左右买的,用来做公司主存储,命名主机名称用nas。到去年8月份就过了保修期。
上周6突然收到很多这样的邮件警告:
Subject:3ware 3DM2 alert -- host: nas
20090919192526 - Controller 0<?xml:namespace prefix = o ns = "urn:schemas-microsoft-com:office:office" />
WARNING - Sector repair completed: port=2, LBA=0x1B6BD900
后来又有内容如下的警告:
20090919192925 - Controller 0
ERROR - Degraded unit: unit=0, port=2
20090919192925 - Controller 0
ERROR - Drive timeout detected: port=2
20090919000129 - Controller 0
WARNING - SMART threshold exceeded: port=2
因为是周末邮件都是到了晚上才看到。当然服务器日志message里面也出现了很多这样的错误。
这时候我登录到nas服务器上,输入tw_cli(有很多人可能喜欢tw_cli 后直接接命令,像tw_cli info c0 u0 等,但我更喜欢先进入tw_cli的命令界面后,再进行别的操作),得到:
[root@nas ~]# tw_cli
//nas> info c0 u0
Unit UnitType Status %Cmpl Port Stripe Size(GB) Blocks
-----------------------------------------------------------------------
u0 RAID-10 DEGRADED* - - 64K 1396.92 2929557504
u0-0 RAID-1 OK - - - - -
u0-0-0 DISK OK - p10 - 232.82 488259584
u0-0-1 DISK OK - p11 - 232.82 488259584
u0-1 RAID-1 OK - - - - -
u0-1-0 DISK OK - p8 - 232.82 488259584
u0-1-1 DISK OK - p9 - 232.82 488259584
u0-2 RAID-1 OK - - - - -
u0-2-0 DISK OK - p6 - 232.82 488259584
u0-2-1 DISK OK - p7 - 232.82 488259584
u0-3 RAID-1 OK - - - - -
u0-3-0 DISK OK - p4 - 232.82 488259584
u0-3-1 DISK OK - p5 - 232.82 488259584
u0-4 RAID-1 DEGRADED - - - - -
u0-4-0 DISK DEGRADED - p2 - 232.82 488259584
u0-4-1 DISK OK - p3 - 232.82 488259584
u0-5 RAID-1 OK - - - - -
u0-5-0 DISK OK - p0 - 232.82 488259584
u0-5-1 DISK OK - p1 - 232.82 488259584
//nas> info c0
Unit UnitType Status %Cmpl Stripe Size(GB) Cache AVerify IgnECC
------------------------------------------------------------------------------
u0 RAID-10 DEGRADED - 64K 1396.92 ON OFF OFF
Port Status Unit Size Blocks Serial
---------------------------------------------------------------
p0 OK u0 232.88 GB 488397168 WD-WCAL76280314
p1 OK u0 232.88 GB 488397168 WD-WCAL76207833
p2 DEVICE-ERROR u0 232.88 GB 488397168 WD-WCAL73516836
p3 OK u0 232.88 GB 488397168 WD-WCAL73587842
p4 OK u0 232.88 GB 488397168 WD-WCAL75670919
p5 OK u0 232.88 GB 488397168 WD-WCAL76197410
p6 OK u0 232.88 GB 488397168 WD-WCAL73498032
p7 OK u0 232.88 GB 488397168 WD-WCAL73588557
p8 OK u0 232.88 GB 488397168 WD-WCAL76291855
p9 OK u0 232.88 GB 488397168 WD-WCAL76254218
p10 OK u0 232.88 GB 488397168 WD-WCAL76251971
p11 OK u0 232.88 GB 488397168 WD-WCAL76280979
查看raid卡序列号
//nas> info c0 serial
/c0 Serial Number = F19302A4430087
查看raid卡型号
//nas> info c0 model
/c0 Model = 9500S-12
由上面的输出,显示u0-4-0 DISK DEGRADED - p2 - 232.82 488259584 这个硬盘已经降级,发现p2 DEVICE-ERROR u0 232.88 GB 488397168 WD-WCAL73516836在Port2 出现device-error ,基本可以判定port2上的硬盘坏了(或者说可能快坏了,最好更换)。
拨长城400技术售后电话,无法接通(不再上班时间段),等到周日再拨,叫我联系苏州地区维修点。苏州维修点周日不上班,再等到周一。
这时候心里其实很着急的,因为这个主存储器上放了公司很多重要的东西,而且硬盘被频繁读写了这么多年,如果损坏影响会比较大,不过唯一比较安慰的就是从周5到周6晚上我已经完成了重要数据的备份。使用rsync同步1.1T共8053566个左右文件,耗时共39.5小时。
好不容易挨到周一,打苏州维修告诉了他们具体情况比如(机器型号,硬盘大小,raid卡型号3ware 9500S-12),因为对长城的服务器不熟,因为我们服务器不方便关机重启,然后咨询了几个问题
1. 我们这个服务器是否支持热插拔
2. 是否支持raid卡的raid10自动重建
3. 如果我自己更换一个320G的硬盘是否可以
4. 如果不支持我怎么自己来rebuild
他们说需要查询总部,然后没消息了,打过几次电话过去给了些没用的信息,打长城总部技术支持也这样,还联系过南京维修点。共打了估计10次电话吧,总之都没有人回答我这几个基本问题。这次对长城服务器的售后维护这块超级不满意。到我记录为止(现在已经周3早上了,还没有给我明确答复)。我估计是因为可能长城不主攻服务器市场,里面的技术工程师都是桌面机的。而且他们和客户联系的好像都是普通工程师,问个什么问题都说要和后台工程师确认,而且效率超级慢,为什么不能让“厉害”的后台工程师直接和客户联系呢? 最后看来是不能指望长城的售后了,只能自己到3ware的网站去翻资料,熟悉了下9500s-12卡,但是没有明确看到autorebuild 功能。
因为同步过一次数据,心里稍微放心点,心想自己弄吧。如果真坏了,大不了就用我备份服务器上的数据。根据以往换别的服务器的经验,周一晚上定了块320G的西数企业硬盘(目前市场上很难买到250G的西数企业硬盘了。)周2拿到了硬盘,然后再次同步了下最重要的cvs数据。
到了晚上,我走进机房,再次确认了下是port2口,拨下硬盘然后用tw_cli info c0 u0 查看信息没任何变化。
更换托架新硬盘插入,输出信息还是没有任何变化。这个卡不支持自动rebuild ? 只能手动了rebuild了。
通过网上的资料,输入:
<?xml:namespace prefix = v ns = "urn:schemas-microsoft-com:vml" />

我这里输入的是p0,当时由于按错了本来应该输入p2的,哈哈,还好RAID10,移除一个没有问题。
错误移除了p0,那就先对p0重建吧。

过了会查看状态:

可以看出p0上的硬盘已经rebuild完成了40%。 差不多1个半小时,P0上的硬盘全部完成。
按照同样的方法对p2硬盘rebuild.
maint remove c0 p2
maint rescan c0
maint rebuild c0 u0 p2
再等了差不多1个半小时全部完成。

可以看出p2上的硬盘是WD-WCAT和别的硬盘WD-WCAL不一样的,这个是我新换上的320G的硬盘。到此raid10修复全部完成。
其实,最重要就是胆大(我主要是有备份所有心里不怎么担心),心细(当然不能像我这样把p2,打成p0哦,如果你是raid5,那就惨了。)
这2天的担心终于可以轻松下了,以后再出现这样的硬盘问题就能很快更换上。
转载于:https://blog.51cto.com/canidosh/204440