ST001 收集系统日志
操作步骤:
在系统上执行以下命令收集完整系统信息:
#sosreport -a
命令执行完成后,系统会在/var/tmp/目录下生成sosreport-hostname.tar.xz格式的压缩文件
检查关键系统日志文件内容:
# /var/log/message # 系统主日志
# /var/log/mcelog # 硬件错误日志(特别是内存相关错误)
查看历史性能数据(sar报告存储在/var/log/sa/目录):
# sar -q -f /var/log/sa/saX 查看历史系统负载情况
# sar -u -f /var/log/sa/saX 查看历史CPU使用率
# sar -b -f /var/log/sa/saX 查看历史磁盘读写IO统计
# sar -S -f /var/log/sa/saX 查看历史swap空间使用率
# sar -r -f /var/log/sa/saX 查看历史内存使用情况
# sar -n DEV -f /var/log/sa/saX 查看历史网络流量数据
注意:saX中的X需替换为具体日期数字(如sa01表示当月1日的数据)
ST002 整体CPU使用情况
操作步骤:
在系统上执行top命令查看实时CPU状态:
#top

关键指标判断标准:
- 当us(用户空间)+sy(系统空间)的CPU占用总和大于60%时,表明系统CPU负载较高,需要进一步排查具体原因
- 如果us单独占用超过60%,应重点检查业务应用程序的CPU使用是否合理
- 正常情况下sy值应维持在10%左右,若持续高于10%,需排查系统进程异常情况
ST003 使用CPU前10进程
操作步骤:
执行以下命令查看CPU占用最高的10个进程:
#ps -eo pcpu,pmem,pid,ppid,user,stat,args | sort -k 1 -r | head -11

重点关注列说明:
- %CPU:进程的CPU使用百分比
- COMMAND: 进程对应的执行命令
- PID:进程的唯一标识符
查看指定进程及其线程的详细CPU使用情况(示例为PID=1的进程):
# pidstat -u -t -p 1 1

ST004 系统负载使用情况
操作步骤:
通过top命令查看系统负载状态:
#top

负载判断标准:
- load average值应低于系统逻辑CPU核心数(逻辑CPU数查询命令:# grep processor /proc/cpuinfo |wc -l)
- 若load average持续高于逻辑CPU数,表明系统过载,需立即排查
负载值含义分析(load average: 4.10, 3.39, 2.21):
- 第一个值(4.10):过去1分钟的平均负载
- 第二个值(3.39):过去5分钟的平均负载
- 第三个值(2.21):过去15分钟的平均负载
趋势判断:
- 若三个数值基本一致,表明系统负载平稳
- 若1分钟值远小于15分钟值,说明近期负载呈下降趋势
- 若1分钟值远大于15分钟值,说明近期负载呈上升趋势
ST005 系统IO使用情况
操作步骤:
通过top命令查看基础IO状态:
#top

使用iostat命令获取详细IO统计:
#iostat

关键指标:
- 重点关注%iowait数据情况,该值表示CPU等待IO操作的时间占比
- 当iowait持续高于5%时,表明存在IO瓶颈,需结合OP006进一步排查
ST006 进程IO使用情况
操作步骤:
使用iotop命令查看进程级IO使用情况:
#iotop

关键字段说明:
- IO列:实时显示进程当前的IO读写速率
- COMMAND列:执行IO操作的任务名称
此命令可直观定位高IO消耗的进程,是诊断IO性能问题的有效工具

被折叠的 条评论
为什么被折叠?



