32、服务器安全与故障排查指南

算法笑匠

于 2025-09-04 11:13:08 发布

阅读量66

点赞数

CC 4.0 BY-SA版权

分类专栏：精通Ubuntu服务器实战文章标签：服务器安全故障排查磁盘加密

本文链接：https://blog.youkuaiyun.com/1a2s3d4f5g/article/details/151305392

精通Ubuntu服务器实战专栏收录该内容

36 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

服务器安全与故障排查指南

1. 磁盘加密与解密

数据加密是安全领域常被忽视的重要方面。备份对业务连续性至关重要，但如果备份介质被盗或落入他人之手，未加密的备份数据将面临泄露风险。因此，包含个人身份信息、公司机密等敏感数据的备份应进行加密。下面介绍使用 Linux Unified Key Setup (LUKS) 对外部备份驱动器进行加密的步骤：
1. 安装 cryptsetup 包 ：

# apt-get install cryptsetup

确定设备名称 ：使用 fdisk -l 或 lsblk 命令查看计算机或服务器上连接的硬盘列表，插入外部磁盘或闪存驱动器后再次运行该命令，确定可移动介质的设备名称，如 /dev/sdb 。
格式化磁盘 ：

# cryptsetup luksFormat /dev/sdb

执行此命令后会收到警告提示，输入 YES 并按回车键继续，随后设置用于解锁驱动器的密码，需妥善保存该密码。
4. 打开磁盘 ：

# cryptsetup luksOpen /dev/sdb backup_drive

backup_drive 可替换为自定义名称，此时磁盘将挂载到 /dev/mapper/backup_drive 。
5. 创建文件系统 ：

# mkfs.ext4 -L "backup_drive" /dev/mapper/backup_drive

-L 选项可设置驱动器标签。
6. 挂载磁盘 ：

# mount /dev/mapper/backup_drive /media/backup_drive

目标挂载目录需提前创建，挂载后即可像操作其他卷一样保存数据。
7. 卸载磁盘 ：

# umount /media/backup_drive
# cryptsetup luksClose /dev/mapper/backup_drive

若要再次挂载，执行以下命令：

# cryptsetup luksOpen /dev/sdb backup_drive
# mount /dev/mapper/backup_drive /media/backup_drive

若要更改密码，使用以下命令：

# cryptsetup luksChangeKey /dev/sdb -S 0

此命令会要求输入当前密码和新密码两次，操作时需谨慎。

2. 限制 sudo 访问

sudo 命令在系统管理中常用，但具有全 sudo 访问权限的用户可能对系统安全构成威胁。默认情况下，安装时创建的用户会加入 sudo 组，拥有全 sudo 访问权限。因此，应尽量限制用户对 sudo 的访问，仅在必要时授予特定命令的访问权限。例如，若用户需要关机或重启服务器，可通过 visudo 命令进行如下配置：

charlie    ALL=(ALL:ALL) /usr/sbin/reboot,/usr/sbin/shutdown

一般来说，根据用户工作需求授予特定命令的 sudo 访问权限，遵循最小权限原则，有助于增强网络安全性。

3. 评估问题空间

当服务器出现问题时，首先要评估问题空间，即确定问题可能存在的位置以及受影响的系统和服务范围。有时问题空间很明显，如 Ubuntu 基于的 DHCP 服务器无法分配 IP 地址，可直接查看该服务器的日志；但有时问题不太明确，需要深入挖掘才能确定问题的范围。

在评估问题空间和范围时，可通过回答以下问题来辅助分析：
- 问题的症状是什么？
- 问题首次出现的时间？
- 同一时间网络周围是否有任何更改？
- 该问题之前是否发生过？上次是如何解决的？
- 哪些服务器或节点受到影响？
- 受影响的用户数量有多少？

若问题局限于单台机器，可检查当前登录服务器的用户以及他们最近输入的命令。查看用户主目录下的 .bash_history 文件或执行 history 命令，可能会直接找到问题的原因或解决方案。同时，使用 w 命令查看当前登录的用户及其 IP 地址，可进一步了解问题的来源。

评估问题空间和范围后，可逐步缩小问题范围，找到问题的原因。例如，网站无法正常工作且发现 Apache 配置最近被更改，可通过调查更改内容和更改者来解决问题；若为网络问题，如用户无法访问网站，潜在的问题空间较大，可能涉及 Internet 网关故障、DNS 或 DHCP 服务器故障、网络服务提供商问题或未支付网络费用等。

4. 进行根本原因分析

解决服务器或网络问题后，进行根本原因分析有助于防止问题再次发生。根本原因分析需展示导致问题发生的事件、解决问题的步骤，若问题可能再次出现，还应包含预防措施。

然而，根本原因分析很难做到 100% 准确。例如，用户 Bob 删除了重要目录，通过查看日志可明确问题原因；但有些情况并非如此清晰，如 Citrix 虚拟服务器集群中两台服务器同时故障，虽根据文档推测是服务器数量不足导致，但无法确定这就是问题的根本原因。

一个好的根本原因分析应逻辑合理，可通过关联系统事件和症状来初步分析，但不一定完全准确。必要时需阅读文档，确保服务器或守护进程的配置符合最佳实践。在最坏的情况下，可能无法确切知道问题的原因和预防方法，但仍应记录相关信息。

根本原因分析应包含以下详细信息：
- 问题的描述
- 出现故障的应用程序或硬件
- 首次发现问题的日期和时间
- 调查问题时的发现
- 解决问题的方法
- 导致问题发生的事件、配置或故障

服务器安全与故障排查指南

5. 查看系统日志

系统日志是排查服务器问题的重要依据，它记录了系统运行过程中的各种事件和信息。通过查看系统日志，我们可以了解系统的运行状态，发现潜在的问题。

在 Ubuntu 系统中，常见的系统日志文件位于 /var/log 目录下，以下是一些重要的日志文件及其作用：
| 日志文件 | 作用 |
| ---- | ---- |
| /var/log/syslog | 记录系统的一般信息，包括系统启动、服务启动和停止等。 |
| /var/log/auth.log | 记录用户认证相关的信息，如登录、sudo 使用等。 |
| /var/log/dmesg | 记录内核的启动信息和硬件检测信息。 |
| /var/log/apache2/access.log | 记录 Apache 服务器的访问信息。 |
| /var/log/apache2/error.log | 记录 Apache 服务器的错误信息。 |

查看系统日志的常用命令有：
- cat ：用于查看整个日志文件的内容，例如：

cat /var/log/syslog

tail ：用于查看日志文件的末尾内容，例如查看最新的 10 行：

tail -n 10 /var/log/syslog

grep ：用于在日志文件中搜索特定的关键字，例如搜索包含 “error” 的行：

grep "error" /var/log/syslog

6. 追踪网络问题

网络问题是服务器常见的故障之一，追踪网络问题可以帮助我们找出网络故障的原因。以下是一些常用的网络追踪工具和方法：

ping 命令 ：用于测试与目标主机的连通性，例如：

ping www.example.com

如果能够收到响应，说明网络连接正常；如果无法收到响应，则可能存在网络故障。

traceroute 命令 ：用于追踪数据包从本地主机到目标主机所经过的路由，例如：

traceroute www.example.com

通过查看路由信息，可以找出网络中的瓶颈或故障点。

netstat 命令 ：用于查看网络连接、路由表、网络接口等信息，例如查看所有的网络连接：

netstat -an

mermaid 流程图展示网络问题追踪流程 ：

graph TD;
    A[发现网络问题] --> B[使用 ping 命令测试连通性];
    B -->|连通正常| C[使用 traceroute 命令追踪路由];
    B -->|连通异常| D[检查本地网络设置];
    C --> E[分析路由信息找出故障点];
    D --> F[检查网络接口状态];
    F --> G[检查防火墙设置];
    G --> H[检查网络设备是否正常];

7. 排查资源问题

服务器的资源问题可能会导致系统性能下降或服务不可用，常见的资源问题包括 CPU 使用率过高、内存不足、磁盘空间不足等。以下是一些排查资源问题的方法：

top 命令 ：用于实时查看系统的资源使用情况，包括 CPU、内存、进程等，例如：

top

在 top 命令界面中，可以按 P 键按照 CPU 使用率排序，按 M 键按照内存使用率排序。

df 命令 ：用于查看磁盘空间的使用情况，例如：

df -h

该命令会以人类可读的格式显示磁盘的使用情况。

free 命令 ：用于查看内存的使用情况，例如：

free -h

该命令会以人类可读的格式显示内存的使用情况。

8. 诊断有缺陷的 RAM

有缺陷的 RAM 可能会导致系统不稳定、数据丢失等问题。以下是一些诊断有缺陷的 RAM 的方法：

memtest86+ ：是一个常用的内存测试工具，可以在系统启动时运行该工具来测试内存。具体步骤如下：
1. 下载 memtest86+ 的 ISO 镜像文件。
2. 将 ISO 镜像文件写入到 USB 闪存驱动器。
3. 从 USB 闪存驱动器启动系统。
4. 系统启动后，选择 memtest86+ 并开始测试。

测试过程可能需要较长时间，测试完成后，如果发现有错误，说明 RAM 可能存在缺陷，需要更换。

综上所述，通过对服务器进行安全设置和掌握有效的故障排查方法，可以提高服务器的安全性和稳定性，确保业务的正常运行。在遇到问题时，按照一定的步骤进行排查和分析，能够更快地找到问题的根源并解决问题。