DRBD9和LINSTOR用户指南——13.故障排除和错误恢复

最新推荐文章于 2022-07-07 20:42:02 发布

原创最新推荐文章于 2022-07-07 20:42:02 发布 · 591 阅读

0 ·

CC 4.0 BY-SA版权

本文详细介绍DRBD在遇到硬件或系统故障时的处理流程，包括硬盘故障、节点故障及裂脑情况下的恢复策略，旨在帮助管理员有效应对各种故障场景。

13.故障排除和错误恢复

本章介绍发生硬件或系统故障时要执行的任务。

13.1。处理硬盘故障

如何处理硬盘驱动器故障取决于DRBD配置为处理磁盘I / O错误的方式（请参阅磁盘错误处理策略），以及配置的元数据的类型（请参阅DRBD元数据）。

在大多数情况下，仅在直接在物理硬盘驱动器上运行DRBD的情况下，此处描述的步骤才适用。如果您在DRBD上分层运行DRBD，则通常它们不适用

MD软件RAID集（在这种情况下，用于mdadm管理驱动器更换），
设备映射器RAID（使用dmraid），
硬件RAID设备（按照供应商对如何处理故障驱动器的说明进行操作），
一些非标准的设备映射器虚拟块设备（请参阅设备映射器文档）。

13.1.1。手动从硬盘驱动器上卸下DRBD

如果将DRBD 配置为传递I / O错误（不建议），则必须首先分离DRBD资源，即，将其与其后备存储解除关联：

＃drbdadm detach <资源>

通过运行drbdadm status或drbdadm dstate命令，您现在可以验证资源现在处于无盘模式：

＃drbdadm status <资源>

<资源>角色：主要

卷：0磁盘：无盘

<peer>角色：中学

卷：0对等磁盘：UpToDate

＃drbdadm dstate <资源>

无盘/最新

如果主节点上发生了磁盘故障，则可以将此步骤与切换操作结合在一起。

13.1.2。I / O错误时自动分离

如果将DRBD 配置为在I / O错误时自动分离（推荐的选项），则DRBD应该已经从其后备存储中自动分离了资源，而无需手动干预。您仍然可以使用该drbdadm status 命令来验证资源实际上是否在无盘模式下运行。

13.1.3。使用内部元数据时更换故障磁盘

如果使用内部元数据，则将DRBD设备绑定到新硬盘就足够了。如果新硬盘必须使用除故障磁盘之外的其他Linux设备名称寻址，则必须相应地修改DRBD配置文件。

此过程涉及创建新的元数据集，然后重新附加资源：

＃drbdadm create-md <资源>

v08找不到幻数

写入中继资料...

初始化活动日志

不初始化位图

成功创建了新的drbd元数据块。

＃drbdadm attach <资源>

新硬盘的完全同步会立即自动启动。drbdadm status --verbose与任何后台同步一样，您将能够通过监视同步的进度。

13.1.4。使用外部元数据时更换故障磁盘

使用外部元数据时，过程基本相同。但是，DRBD无法独立识别出硬盘驱动器已被交换，因此需要执行额外的步骤。

＃drbdadm create-md <资源>

v08找不到幻数

写入中继资料...

初始化活动日志

不初始化位图

成功创建了新的drbd元数据块。

＃drbdadm attach <资源>

＃drbdadm invalidate <资源>

确保drbdadm invalidate在没有良好数据的节点上运行；此命令将导致本地内容被对等方的数据覆盖，因此在错误的节点上运行此命令可能会丢失数据！

在此，该drbdadm invalidate命令触发同步。同样，可以通过观察同步进度drbdadm status --verbose。

13.2。处理节点故障

当DRBD检测到其对等节点已关闭（通过真正的硬件故障或手动干预）时，DRBD会将其连接状态从“ 已连接”更改为“正在连接”，并等待对等节点重新出现。然后说DRBD资源以断开模式运行。在断开连接模式下，资源及其关联的块设备完全可用，可以根据需要进行升级和降级，但是没有块修改被复制到对等节点。相反，DRBD基于对等存储在断开连接时正在修改哪些块。