联想万全服务器 R630 故障处理

本文详细记录了一次服务器故障的排查及修复过程,包括硬盘故障检测、RAID信息处理、内核更新、网络配置调整及gpfs挂载问题解决,为IT运维人员提供实战经验。

 

1.故障表现
  服务器var 目录下文件全部只读,系统服务出现异常,某些服务无法启动。
2.排查原因
  var目录挂载点受损
3.处理过程
  a.将服务器服务停掉,重启试图修复文件系统。尝试多次无果。
  b.怀疑硬盘故障。关机将硬盘外挂工具检测。服务器两块磁盘做的镜像。(发现在普通PC无法挂载硬盘,是因为有RAID信息,工程师将RAID 信息删除之后,正常挂载检测发现有一块硬盘出现坏道,之后更坏新的硬盘。)
  c.更换新的硬盘之后系统始终无法启动,(kernel panic not syscing : fatal exeption )这个问题折腾了很久。最终发现是(内核不支持hdlm)内核不支持。将内核更改后正常启动。


  d.服务器启动之后配置网络(服务器启动时不要接网线、光纤由于用户有gps 接上gpfs 不然系统会卡在gpfs大概四五十分钟),将原来的网络配置修改(最好在配置文件下修改并将mac注释掉,不然会出现冲突有丢包等现象),配置好之后启动发现奇怪的现象:服务器到网关正常可以ping通,但是到同网段的服务器只有个别是通的。
   d.1 问题解决 :仔细查看bound 网卡 发现,网卡绑定的有一个网卡没有连接线重新配置网卡绑定之后正常。
  e.服务器网络正常之后,想着就好了。首先查看dev下是否有硬件,判断是否光纤接错等。发现gpfs挂载出现异常,gpfs启动正常,但是无法挂载。
   f.起初怀疑是gpfs配置问题。最后发现是内核改变之后内核线的模块缺失

    f1.编译安装完成之后挂载正常。

 


过程反思:
1.发现有坏盘是判断坏盘那一块(拔掉一块看看系统是否正常等操作),不要急于全部拆除。
2.当我们在拆RAID时,想上面的情况我们就只拆一个盘,这样保留一个正常的信息。
3.过程中我们使用软件做硬盘克隆和dd克隆。底层对比发现,磁盘dd做的没有RAID信息。

4.问题处理过程目标和思路一定要明确。

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值