10分钟定位Linux系统故障：从卡顿到崩溃的急救指南-优快云博客

10分钟定位Linux系统故障：从卡顿到崩溃的急救指南

【免费下载链接】linux-command Linux命令大全搜索工具，内容包含Linux命令手册、详解、学习、搜集。https://git.io/linux 项目地址: https://gitcode.com/GitHub_Trending/linux/linux-command

你是否遇到过Linux服务器突然卡顿、服务无响应甚至系统崩溃的情况？面对闪烁的命令行提示符，是否感到无从下手？本文将带你掌握一套系统化的Linux故障诊断方法，从CPU、内存、磁盘到网络，10分钟内定位80%的常见问题。

故障诊断流程图

mermaid

一、CPU与内存故障：系统卡顿的元凶

当系统出现卡顿、响应缓慢时，首先要检查CPU和内存使用情况。这就像医院急诊先测心率和血压，是最基础也最重要的检查。

1.1 实时监控CPU使用：top命令

top命令文档是Linux系统监控的多功能工具，它能实时显示进程的CPU和内存占用。执行以下命令：

top -d 1  # 每秒刷新一次

关键指标解析：

load average: 系统负载，三个数值分别代表1分钟、5分钟、15分钟的平均负载，超过CPU核心数即表示过载
%us: 用户空间CPU使用率，过高可能是应用程序异常
%sy: 内核空间CPU使用率，过高可能是驱动或系统调用问题
%wa: IO等待时间占比，过高表示磁盘IO瓶颈

1.2 进程快照分析：ps命令

ps命令文档可以生成进程的静态快照，适合精确查找异常进程：

ps aux --sort=-%cpu | head -10  # 按CPU使用率降序排列前10个进程
ps aux --sort=-%mem | head -10  # 按内存使用率降序排列前10个进程

案例：某Web服务器CPU使用率100%，通过ps aux --sort=-%cpu发现php-fpm进程异常增多，最终定位到某页面存在死循环代码。

二、磁盘故障：空间不足与IO瓶颈

磁盘问题通常表现为：无法写入文件、系统启动失败、应用程序崩溃等。这时候需要检查磁盘空间和IO性能。

2.1 磁盘空间检查：df命令

df命令文档用于查看磁盘分区的使用情况：

df -h  # 以人类可读的格式显示磁盘空间
df -i  # 查看inode使用情况（有时空间足够但inode满也会导致无法写入）

2.2 大文件定位：du命令

当磁盘空间不足时，使用du命令查找大文件：

du -sh /*  # 查看根目录下各目录大小
du -sh /var/log/* | sort -rh | head -10  # 查找/var/log下最大的10个文件

注意：/var/log/目录是日志文件的聚集地，经常会出现日志文件过大导致磁盘满的情况。可以使用truncate -s 0 /var/log/xxx.log清空大日志文件（注意不要直接删除正在写入的日志文件）。

三、网络故障：连接不上的烦恼

网络问题是Linux系统最复杂的故障类型之一，从物理链路到应用层都可能出现问题。我们需要从网络连接、流量和端口三个维度进行排查。

3.1 网络连接监控：iftop命令

iftop命令文档是实时网络流量监控工具，能直观显示各连接的带宽使用情况：

iftop -i eth0 -n  # 监控eth0网卡，不进行DNS解析

界面中=>表示发送流量，<=表示接收流量，右侧三个数值分别是2秒、10秒、40秒的平均流量。

3.2 端口与连接状态：netstat命令

netstat命令文档可以查看端口监听和网络连接状态：

netstat -tuln  # 查看所有监听端口
netstat -an | grep ESTABLISHED  # 查看所有已建立的连接
netstat -an | grep TIME_WAIT | wc -l  # 统计TIME_WAIT状态的连接数

3.3 抓包分析：tcpdump命令

当需要深入分析网络数据包时，tcpdump命令文档是强大的抓包工具：

tcpdump -i eth0 port 80 -w capture.pcap  # 抓取eth0网卡80端口的流量并保存到文件
tcpdump -r capture.pcap  # 读取保存的抓包文件

四、系统日志：故障的黑匣子

Linux系统有一个"黑匣子"——日志文件，几乎所有重要事件和错误都会记录在这里。学会查看日志，能解决大部分疑难杂症。

4.1 内核日志：dmesg命令

dmesg命令文档用于查看内核环缓冲区信息，记录了系统启动过程和内核运行中的重要事件：

dmesg | grep -i error  # 查找错误信息
dmesg | grep -i warning  # 查找警告信息
dmesg | grep sda  # 查看磁盘相关信息

案例：某服务器频繁死机，通过dmesg | grep -i error发现大量"I/O error on dev sda"信息，最终确认是硬盘故障，及时更换避免了数据丢失。

4.2 系统日志：journalctl命令

对于使用systemd的系统，journalctl命令可以查看所有系统日志：

journalctl -u nginx  # 查看nginx服务的日志
journalctl -p err  # 只显示错误级别日志
journalctl --since "1 hour ago"  # 查看一小时前至今的日志

五、实战案例：从现象到本质的诊断过程

案例1：Web服务器响应缓慢

执行top命令，发现CPU使用率90%以上，load average: 15.2, 12.8, 10.5（服务器为8核CPU，负载明显过高）
执行ps aux --sort=-%cpu，发现多个php-fpm进程CPU使用率超过20%
执行netstat -an | grep :80 | grep ESTABLISHED | wc -l，发现有3000多个 established 连接（正常应为几百个）
执行iftop -i eth0，发现来自某个IP的流量异常高
综合判断：该IP可能在进行恶意请求，通过防火墙屏蔽该IP后，服务器恢复正常

案例2：无法创建新文件

执行df -h，发现/分区使用率100%
执行du -sh /*，发现/var目录占用了20G
执行du -sh /var/* | sort -rh | head -5，发现/var/log/messages文件大小超过15G
查看日志内容发现大量重复错误信息，定位到某服务配置错误导致日志疯狂增长
解决：truncate -s 0 /var/log/messages清空日志，修复服务配置，重启服务

六、故障诊断工具箱总结

故障类型	核心命令	辅助命令	关键指标
CPU高负载	top	ps, mpstat	%us, %sy, load average
内存不足	free	vmstat, pmap	Mem: used/available, Swap: used
磁盘空间	df	du, lsblk	Use%, Avail
磁盘IO高	iostat	iotop, dstat	%iowait, r/s, w/s
网络问题	iftop	netstat, tcpdump	带宽使用, 连接数, 端口状态
服务故障	systemctl	journalctl, /var/log	错误日志, 服务状态

七、预防胜于治疗：日常维护建议

定期检查系统资源使用情况，设置监控告警（如Zabbix、Prometheus）
配置日志轮转，防止日志文件过大（/etc/logrotate.conf）
建立系统快照，重要数据定期备份
记录系统基线性能，便于异常时对比分析
定期更新系统和应用软件，修复已知漏洞

掌握这些工具和方法，你就能从Linux系统的"门外汉"变成"急诊医生"，面对大多数故障都能从容应对。记住，故障诊断的核心是：先观察现象，再定位原因，最后采取措施。保持冷静，按部就班，80%的问题都能在10分钟内解决。

Linux命令大全项目主页提供了本文所有命令的详细文档，建议收藏以备不时之需。如果你在实践中遇到新的故障类型，欢迎通过项目贡献指南提交你的解决方案，帮助更多Linux用户。

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考