24、Ceph 灾难恢复指南

julia4scientist

于 2025-11-12 09:03:18 发布

阅读量18

点赞数

CC 4.0 BY-SA版权

分类专栏：掌握Ceph：存储的艺术文章标签： Ceph 灾难恢复监视器故障

本文链接：https://blog.youkuaiyun.com/julia4scientist/article/details/154724832

掌握Ceph：存储的艺术专栏收录该内容

24 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

Ceph 灾难恢复指南

在 Ceph 存储系统的运行过程中，可能会遇到各种灾难性的情况，如监视器故障、OSD 故障等。本文将详细介绍如何从这些灾难中恢复，确保数据的安全性和系统的可用性。

1. 从完全监视器故障中恢复

在极少数情况下，所有监视器都可能丢失，但并非完全无法恢复。可以使用 ceph-objectstore-tool 从 OSD 的内容中重建监视器数据库。

1.1 恢复步骤

设置场景 ：假设发生了某个事件，导致所有三个监视器损坏，使得 Ceph 集群无法访问。为了恢复集群，关闭两个监视器，让一个失败的监视器继续运行。
重建监视器数据库 ：使用脚本通过 SSH 连接到每个 OSD 节点，提取构建监视器数据库所需的数据。

#!/bin/bash
hosts="osd1 osd2 osd3"
ms=/tmp/mon-store/
mkdir $ms
# collect the cluster map from OSDs
for host in $hosts; do
 echo $host
 rsync -avz $ms root@$host:$ms
 rm -rf $ms
 ssh root@$host <<EOF
 for osd in /var/lib/ceph/osd/ceph-*; do
 ceph-objectstore-tool --data-path \$osd --op update-mon-