34、Ubuntu 服务器故障排查指南

最新推荐文章于 2025-10-01 12:27:46 发布

算法笑匠

最新推荐文章于 2025-10-01 12:27:46 发布

阅读量41

点赞数

CC 4.0 BY-SA版权

分类专栏：精通Ubuntu服务器实战文章标签： Ubuntu服务器故障排查网络问题

本文链接：https://blog.youkuaiyun.com/1a2s3d4f5g/article/details/151305398

精通Ubuntu服务器实战专栏收录该内容

36 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

Ubuntu 服务器故障排查指南

1. 网络问题排查

网络问题可能由多种原因引起，以下是一些常见的网络问题及排查方法：
- 时钟不同步导致的 DHCP 问题 ：客户端和服务器时钟不同步可能会影响 DHCP 服务。DHCP 请求在客户端和服务器端都有时间戳，如果一方时钟偏差较大，时间戳会不一致，导致 DHCP 服务器产生混淆。建议尽早在网络中标准化 NTP（网络时间协议），确保所有客户端都安装并运行最新的 NTP 服务。可以使用配置管理工具（如 Ansible、Chef 或 Puppet）来确保 NTP 在所有机器上正确配置和运行。
- 常见网络问题排查方法 ：网络问题排查通常围绕 ping 测试展开。可以尝试 ping 默认网关，使用 traceroute 追踪失败的端点，排查 DNS 和 DHCP 问题，这些操作可以解决大部分网络问题。此外，硬件故障（如网卡故障、电缆损坏）也可能导致网络问题。

2. 资源问题排查

在排查服务器故障时，大部分时间可能都花在确定资源问题上，资源包括 CPU、内存、磁盘、输入/输出等。以下是一些常见的资源问题及排查方法：
- 存储问题
- 检查磁盘使用情况 ：当用户抱怨无法向服务器写入新文件时，首先运行以下两个命令：

df -h
df -i

    - `df -h`：以人类可读的格式显示磁盘使用情况，以兆字节和千兆字节为单位。
    - `df -i`：显示已使用和可用的 inode 信息。在 Linux 系统中，即使磁盘还有大量可用空间，但如果 inode 耗尽，也会报告磁盘已满，而 `df -h` 可能不会显示使用率为 100%。
- **查找占用大量存储空间的文件或目录**：如果发现磁盘已满，可以使用 `ncdu` 命令来查找占用大量存储空间的文件或目录。`ncdu` 不是默认安装的工具，但它是一个很好的工具，可以帮助你查看存储使用情况。建议使用 `-x` 选项，将扫描范围限制在特定文件夹。例如，如果服务器的 `/home` 分区已满，可以运行以下命令：

ncdu -x /home

- **文件系统完整性检查**：文件系统完整性问题通常在服务器意外断电时出现。大多数情况下，下次启动时会自动进行文件系统检查（fsck）。如果没有自动检查，并且遇到无法解释的存储问题，建议手动进行文件系统检查。可以通过创建一个空文件 `forcefsck` 来触发检查：

touch /forcefsck

如果要检查除根卷以外的文件系统，可以在相应的分区创建 forcefsck 文件。例如，如果服务器有一个单独的 /home 分区，可以运行以下命令：

touch /home/forcefsck

内存问题
- 查看内存使用情况 ：使用 free -m 命令可以查看服务器的内存和交换空间使用情况。该命令不会告诉你具体是什么进程占用了大量内存，但可以让你了解是否有内存耗尽的风险。
- 查找占用大量内存的进程 ：使用 htop 命令可以按 CPU 或内存使用率对进程列表进行排序，帮助你找出占用大量资源的进程。安装 htop 后，按下 F6 键，选择新的排序字段（如 PERCENT_CPU 或 PERCENT_MEM ）。
- 检查输入/输出（IO）情况 ：如果 htop 显示的结果与实际负载情况不符，可以使用 iotop 命令查看磁盘读写情况。 iotop 不是默认安装的工具，建议安装 iotop 包。运行 iotop 命令需要以 root 权限或使用 sudo：

sudo iotop

iotop 窗口会自动刷新，按高亮列对进程进行排序。可以使用左右箭头键更改高亮列，按 Q 键退出。

3. 内存故障诊断

所有服务器和计算组件最终都可能出现故障，其中一些硬件（如风扇、电源供应器、硬盘）更容易出现故障，而内存故障也是常见问题之一。以下是一些内存故障诊断方法：
- 使用 Memtest86+ 进行内存测试 ：大多数 Linux 发行版（包括 Ubuntu）的安装介质中都包含 Memtest86+ 工具。从 Ubuntu 服务器安装介质启动后，选择“Test memory”选项即可开始测试。测试时间取决于服务器或工作站安装的内存量，可能需要几分钟甚至几小时。一般来说，如果机器的内存有问题，通常会在最初的 5 - 10 分钟内出现大量错误。如果 15 分钟内没有出现错误，内存大概率没有问题。但理论上，内存模块可能存在小问题，需要更长时间才能显现出来，因此如果时间允许，建议让测试完成。
- 确定故障内存模块 ：如果测试报告有错误，需要找出哪个内存模块有问题。有些服务器可能安装了十几个内存模块，这可能会比较困难。可以尝试逐个独立测试每个内存模块，直到找到有问题的模块。即使找到了一个有问题的模块，也建议继续测试其他模块，因为多个内存模块出现故障的可能性也是存在的。
- 处理故障内存 ：发现有问题的内存模块后，如果可能的话，最好擦除硬盘并重新开始。因为通过有问题的 RAM 的任何数据都可能被损坏，存储在硬盘上的数据也可能受到影响。在计划处理这种情况时，需要考虑数据的安全性和可靠性。
- 检查主板电容 ：当遇到奇怪的问题时，还建议检查服务器主板上的电容。电容故障的症状与内存故障相似，表现为问题似乎很不稳定，没有明显的原因。可以打开服务器机箱，用手电筒照射电容，查看是否有液体泄漏或膨胀的迹象。

4. 总结与展望

Ubuntu 通常是一个非常稳定和安全的平台，但在出现问题时，了解如何处理这些问题非常重要。本文讨论了常见的服务器故障排查方法，包括网络问题、资源问题和内存故障诊断。在后续的工作中，我们还需要考虑如何预防问题的发生，以及如何从灾难中恢复。例如，可以使用 rsync 备份重要文件，恢复损坏的 GRUB 安装，使用 Clonezilla 创建和恢复系统镜像等。虽然无法预防所有可能出现的问题，但了解如何使服务器尽可能具有弹性是至关重要的。

以下是一个简单的故障排查流程图：

graph TD;
    A[服务器出现问题] --> B{问题类型};
    B -->|网络问题| C[进行 ping 测试、排查 DNS 和 DHCP];
    B -->|资源问题| D{资源类型};
    D -->|存储问题| E[检查磁盘使用情况、查找占用大量存储空间的文件或目录];
    D -->|内存问题| F[查看内存使用情况、查找占用大量内存的进程];
    B -->|硬件问题| G{硬件类型};
    G -->|内存问题| H[使用 Memtest86+ 进行内存测试];
    G -->|其他硬件问题| I[检查硬件是否损坏];

通过以上方法，可以有效地排查和解决 Ubuntu 服务器中常见的故障问题。在实际操作中，需要根据具体情况灵活运用这些方法，确保服务器的稳定运行。

Ubuntu 服务器故障排查指南（续）

5. 各类故障排查要点回顾

为了更清晰地梳理前面提到的故障排查方法，以下通过表格形式进行总结：
|故障类型|排查工具及命令|具体作用|
| ---- | ---- | ---- |
|网络问题|ping、traceroute|ping 用于测试与默认网关的连通性；traceroute 用于追踪失败的端点|
|网络问题|NTP 服务|标准化网络时间，避免因时钟不同步影响 DHCP 等服务|
|存储问题|df -h|以人类可读格式显示磁盘使用情况|
|存储问题|df -i|显示已使用和可用的 inode 信息|
|存储问题|ncdu -x|查找占用大量存储空间的文件或目录，-x 选项限制扫描范围|
|存储问题|touch /forcefsck|触发文件系统检查|
|内存问题|free -m|查看服务器的内存和交换空间使用情况|
|内存问题|htop|按 CPU 或内存使用率对进程列表进行排序|
|内存问题|iotop|查看磁盘读写情况|
|硬件问题|Memtest86+|测试内存是否有故障|

6. 故障排查的实际应用示例

下面通过一个实际案例，展示如何运用上述方法进行故障排查。

假设服务器出现以下现象：用户反馈无法向服务器写入新文件，且服务器响应缓慢。

6.1 初步判断问题类型

根据用户反馈，初步判断可能是存储问题或内存问题。

6.2 排查存储问题

首先，运行以下命令检查磁盘使用情况：

df -h
df -i

假设 df -h 显示磁盘还有大量可用空间，但 df -i 显示 inode 几乎耗尽。这表明问题可能是由于 inode 不足导致的。

接着，使用 ncdu 命令查找占用大量 inode 的目录：

ncdu -x /

经过一段时间的扫描，发现 /var/log 目录下有大量的小日志文件，占用了大量的 inode。

6.3 排查内存问题

使用 free -m 命令查看内存使用情况：

free -m

发现内存使用接近上限。再使用 htop 命令按内存使用率对进程列表进行排序：

htop

按下 F6 键，选择 PERCENT_MEM 排序字段，发现某个进程占用了大量内存。根据实际情况，可以选择调整该进程的配置或终止该进程。

6.4 综合处理

根据排查结果，一方面清理 /var/log 目录下的无用日志文件，释放 inode；另一方面，对占用大量内存的进程进行处理，如调整配置或重启。经过这些操作后，再次检查服务器状态，发现用户可以正常写入新文件，服务器响应也恢复正常。

7. 故障预防与灾难恢复思路

虽然我们掌握了故障排查的方法，但预防问题的发生和在灾难发生后进行恢复同样重要。以下是一些常见的预防和恢复措施：

7.1 数据备份

使用 rsync 命令备份重要文件，例如：

rsync -avz /path/to/source /path/to/destination

该命令会将源目录下的文件和目录递归地同步到目标目录，-a 选项表示以归档模式同步，-v 选项表示详细输出，-z 选项表示压缩传输。

7.2 GRUB 恢复

如果 GRUB 安装损坏，可以通过以下步骤进行恢复：
1. 使用 Ubuntu 安装介质启动服务器。
2. 选择“Try Ubuntu without installing”选项。
3. 打开终端，运行以下命令挂载系统分区：

sudo mount /dev/sdaX /mnt

其中 /dev/sdaX 是系统分区的设备名。
4. 挂载其他必要的分区，如 /boot 、 /home 等。
5. 运行以下命令安装 GRUB：

sudo grub-install --root-directory=/mnt /dev/sda

其中 /dev/sda 是硬盘设备名。
6. 最后，更新 GRUB 配置：

sudo update-grub

7.3 系统镜像创建与恢复

使用 Clonezilla 工具可以创建和恢复系统镜像。具体步骤如下：
1. 下载并制作 Clonezilla 启动盘。
2. 使用 Clonezilla 启动盘启动服务器。
3. 按照 Clonezilla 的向导选择相应的操作，如创建系统镜像或恢复系统镜像。

8. 总结

通过本文的介绍，我们了解了 Ubuntu 服务器常见故障的排查方法，包括网络问题、资源问题和内存故障诊断。同时，也掌握了一些故障预防和灾难恢复的思路和方法。在实际运维过程中，要不断积累经验，灵活运用这些方法，确保服务器的稳定运行。

以下是一个综合的故障处理流程图：

graph TD;
    A[服务器出现问题] --> B{初步判断问题类型};
    B -->|网络问题| C[进行网络相关排查];
    B -->|资源问题| D{资源类型};
    D -->|存储问题| E[检查磁盘和 inode 情况，查找占用资源的目录];
    D -->|内存问题| F[查看内存使用，找出占用大量内存的进程];
    B -->|硬件问题| G{硬件类型};
    G -->|内存问题| H[使用 Memtest86+ 测试内存];
    G -->|其他硬件问题| I[检查硬件物理状态];
    C --> J{是否解决问题};
    J -->|是| K[问题解决，持续监控];
    J -->|否| L[进一步分析或寻求帮助];
    E --> M{是否解决问题};
    M -->|是| K;
    M -->|否| L;
    F --> N{是否解决问题};
    N -->|是| K;
    N -->|否| L;
    H --> O{是否解决问题};
    O -->|是| K;
    O -->|否| L;
    I --> P{是否解决问题};
    P -->|是| K;
    P -->|否| L;

总之，在面对 Ubuntu 服务器故障时，要保持冷静，按照合理的流程进行排查和处理，同时注重日常的预防工作，以提高服务器的可靠性和稳定性。