AIX环境巡检

本文详细介绍了AIX环境下系统故障的定义、定位和处理方法,涵盖了硬件、软件、网络等多个方面。通过错误日志(errpt)、系统管理服务(SMS)、故障诊断程序(diag)等工具收集和分析故障信息,对硬件故障、软件故障、网络故障的定位进行了深入讲解,并提供了系统启动阶段的故障处理和dump文件分析。此外,还涉及了HACMP环境下的排错策略,以及常用命令的使用,是AIX管理员的重要参考资料。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

故障的定义
根据以下这些方面来考虑故障定位:
弄清楚系统发生了什么问题
系统现在能做什么不能做什么
故障什么时候发生的
有没有做平时不同的操作
故障有没有规律定时还是不定时发生的频率有多高
是一台机器出现故障还是多台机器故障故障现象是否相同
最近有没有做改动如安装了新的硬件软件改变了系统的一些设置
故障信息的收集
收集故障信息对于判断诊断故障原因修复系统非常重要
系统故障记录(errorlog)
errdemon
errdemon 进程在系统启动时自动运行
记录包括硬件软件及其他操作信息
故障记录文件为/var/adm/ras/errlog 可备份下来或拷贝到别的机器上分析
errpt 命令的使用(普通用户权限也可使用)
#errpt |more (列出简短出错信息)
ERROR_ID TIMESTAMP T C RESOURCE_NAME ERROR_DESCRIPTION
192AC071 0723100300 T 0 errdemon Error logging turned off
0E017ED1 0720131000 P H mem2 Memory failure
9DBCFDEE 0701000000 T 0 errdemon Error logging turned on
038F2580 0624131000 U H scdisk0 UNDETERMINED ERROR
AA8AB241 0405130900 T O OPERATOR OPERATOR NOTIFICATION
TIMESTAMP: MMDDHHMMYY (月日时分年
T 类型: P 永久; T 临时; U 未知永久性的错误应引起重视
C 分类: H 硬件; S 软件; O 用户; U未知
#errpt -d H (列出所有硬件出错信息)
#errpt -d S (列出所有软件出错信息)
#errpt -aj ERROR_ID (列出详细出错信息)
# errpt -aj 0502f666 <--- ERROR_ID用大小写均可

LABEL: SCSI_ERR1
ID: 0502F666
Date/Time: Jun 19 22:29:51
Sequence Number: 95
Machine ID: 123456789012
Node ID: host1
Class: H
Type: PERM
Resource Name: scsi0
Resource Class: adapter
Resource Type: hscsi
Location: 00-08
VPD: <--- Virtal Product Data
Device Driver Level00
Diagnostic Level00
Displayable MessageSCSI
EC LevelC25928
FRU Number30F8834
ManufacturerIBM97F
Part Number59F4566
Serial Number00002849
ROS Level and ID24
Read/Write Register Ptr0120
Description
ADAPTER ERROR
Probable Causes
ADAPTER HARDWARE CABLE
CABLE TERMINATOR DEVICE
Failure Causes
ADAPTER
CABLE LOOSE OR DEFECTIVE
Recommended Actions
PERFORM PROBLEM DETERMINATION PROCEDURES
CHECK CABLE AND ITS CONNECTIONS
Detail Data
SENSE DATA
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
操作面板上的LED 代码
8 位代码通常系统故障灯会同时亮起某些机型还会同时显示故障设备位置代

4 位代码通常是Exxx
3 位代码通常为0yyy 只看后3位
8 位和4位代码可查看系统服务手册(Service Guide)
3 位代码可查看IBM网站《RS/6000液晶显示屏上显示代码(LED)的含义》(http://www-900.ibm.com/cn/support/viewdoc/detail?DocId=3311001000000)
闪动的888, 系统崩溃硬件或软件原因造成按reset 键会显示更多内容
888-102 一般为软件故障888-102-207 例外
系统会产生一个dump
888-102-xxx-0C9 系统正在做dump, 请等待
888-102-xxx-0C0 系统dump完成可关电重启
888-103 或105
硬件故障一般有SRN 代码及位置代码
SMS (System Management Service) 故障记录
如何进入SMS 菜单
当主控台出现键盘图标后(LED 显示E1F1时)按1键
选择"Utilities"
选择"Error Log", 抄下8位故障代码
在SMS 中还可以更改系统启动顺序表
MAIL
#mail
系统会向root用户发mail报告出错信息通常系统出现故障后没有进行检查
修复系统会定时提醒root
运行故障诊断程序(Diagnostic) 对系统硬件进行检查和诊断
当发现有硬件故障时应立即使用diag
#diag
> 选高级诊断Advance Diagnostic)
> 选问题诊断Problem Determination) 或
选系统检查System Verification)
(选PD 会对系统错误记录进行分析)
diag运行后会给出SRN 代码故障设备名称及百分比地址代码等
对于PCI机型应在系统报错7天之内运行diag程序对出错记录里的sense数据进行分析
其他用于收集系统信息的命令
lsdev -C 系统设备信息
#lsdev -Cc disk
hdisk0 Available 00-06-00-2,0 45 GB 16 Bit SCSI Disk Drive
hdisk1 Available 00-06-00-1,0 45 GB 16 Bit SCSI Disk Drive
hdisk2 Defined 00-06-00-4,0 16 Bit SCSI Disk Drive
lspv 查看物理卷信息
#lspv
hdisk0 0007821160af3d76 rootvg
hdisk1 000782117f571294 rootvg
hdisk2 0000000045c45bde datavg
lsvg 查看卷组信息
#lsvg datavg
VOLUME GROUP: datavg VG IDENTIFIER: 0000000055e2458b
VG STATE: active PP SIZE: 4 megabyte(s)
VG PERMISSION: read/write TOTAL PPs: 2169 (8676 megabyt
MAX LVs: 256 FREE PPs: 1 (4 megabytes)
LVs: 3 USED PPs: 2168 (8672 megabyt
OPEN LVs: 2 QUORUM: 2
TOTAL PVs: 1 VG DESCRIPTORS: 2
STALE PVs: 0 STALE PPs: 0
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值