使用集群中唯一一个MON恢复集群ceph-mon服务(记一次故障恢复)
概述
当集群因为某些故障导致mon集群损坏,或者多个mondb混乱,此时ceph-mon服务不可用,既所有ceph命令会卡住无法返回时,需要先恢复ceph mon服务,才能继续处理其他故障。
需要注意,进行此操作需要停掉集群最后一个存活的mon,并基于其db恢复集群,因此需要事先停止所有业务,备份mon相关配置文件,且需要该mon为集群最后存活的拥有完整db的leader mon。
操作方法
恢复ceph mon服务
此时ceph mon异常主要原因为mon选举机制,超出集群一半以上数量的mon异常,导致没法选举,只需要从mon map中踢出这些异常mon即可,由于ceph命令不可用,需要借助于monmaptool工具。以主机名为mon0的服务为例。
# 停止所有mon服务
systemctl stop ceph-mon.target
# 导出monmap
ceph-mon -i mon0 --extract-monmap /tmp/lastmap
# 查看monmap
monmaptool --print /tmp/lastmap
# 手动移除异常mon
monmaptool /tmp/lastmap

当Ceph集群的mon服务因故障不可用时,需要通过停止最后一个存活的mon,使用monmaptool移除异常mon,然后恢复mon服务。这涉及停服、备份、修改monmap并重新部署mon。一旦mon服务恢复,其他mon可按重新部署方式恢复。
最低0.47元/天 解锁文章
1万+

被折叠的 条评论
为什么被折叠?



