Liunx系统诊断关键手段(1)

ST001 收集系统日志

操作步骤:

在系统上执行以下命令收集完整系统信息:

#sosreport -a

命令执行完成后,系统会在/var/tmp/目录下生成sosreport-hostname.tar.xz格式的压缩文件

检查关键系统日志文件内容:

# /var/log/message   # 系统主日志

# /var/log/mcelog    # 硬件错误日志(特别是内存相关错误)

查看历史性能数据(sar报告存储在/var/log/sa/目录):

# sar -q -f /var/log/sa/saX  查看历史系统负载情况

# sar -u -f /var/log/sa/saX  查看历史CPU使用率

# sar -b -f /var/log/sa/saX  查看历史磁盘读写IO统计

# sar -S -f /var/log/sa/saX  查看历史swap空间使用率

# sar -r -f /var/log/sa/saX  查看历史内存使用情况

# sar -n DEV -f /var/log/sa/saX  查看历史网络流量数据

注意:saX中的X需替换为具体日期数字(如sa01表示当月1日的数据)

ST002 整体CPU使用情况

操作步骤:

在系统上执行top命令查看实时CPU状态:

#top

关键指标判断标准:

- 当us(用户空间)+sy(系统空间)的CPU占用总和大于60%时,表明系统CPU负载较高,需要进一步排查具体原因

- 如果us单独占用超过60%,应重点检查业务应用程序的CPU使用是否合理

- 正常情况下sy值应维持在10%左右,若持续高于10%,需排查系统进程异常情况

ST003 使用CPU前10进程

操作步骤:

执行以下命令查看CPU占用最高的10个进程:

#ps -eo pcpu,pmem,pid,ppid,user,stat,args | sort -k 1 -r | head -11

重点关注列说明:

- %CPU:进程的CPU使用百分比

- COMMAND: 进程对应的执行命令

- PID:进程的唯一标识符

查看指定进程及其线程的详细CPU使用情况(示例为PID=1的进程):

# pidstat -u -t -p 1 1

ST004 系统负载使用情况

操作步骤:

通过top命令查看系统负载状态:

#top

负载判断标准:

- load average值应低于系统逻辑CPU核心数(逻辑CPU数查询命令:# grep processor /proc/cpuinfo |wc -l)

- 若load average持续高于逻辑CPU数,表明系统过载,需立即排查

负载值含义分析(load average: 4.10, 3.39, 2.21):

- 第一个值(4.10):过去1分钟的平均负载

- 第二个值(3.39):过去5分钟的平均负载

- 第三个值(2.21):过去15分钟的平均负载

趋势判断:

- 若三个数值基本一致,表明系统负载平稳

- 若1分钟值远小于15分钟值,说明近期负载呈下降趋势

- 若1分钟值远大于15分钟值,说明近期负载呈上升趋势

ST005 系统IO使用情况

操作步骤:

通过top命令查看基础IO状态:

#top

使用iostat命令获取详细IO统计:

#iostat

​关键指标:

- 重点关注%iowait数据情况,该值表示CPU等待IO操作的时间占比

- 当iowait持续高于5%时,表明存在IO瓶颈,需结合OP006进一步排查

ST006 进程IO使用情况

操作步骤:

使用iotop命令查看进程级IO使用情况:

#iotop

​关键字段说明:

- IO列:实时显示进程当前的IO读写速率

- COMMAND列:执行IO操作的任务名称

此命令可直观定位高IO消耗的进程,是诊断IO性能问题的有效工具

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值