Troubleshoting pg
stuck placement group
pg 显示 degraded 和 peering 状态很正常,这些信息一般表明对失败的恢复过程采取的正常行动。但是,如果 pg 长时间处于这种状态,表明可能问题很严重。
inactive:pg 太长时间没有 active(pg 无法读写)
unclean:pg 太长时间没有 clean (pg 没有完全从之前的失败中恢复)
stale:ceph-osd 长时间没有报告 pg 的状态,表明存储该 pg 的所有节点可能 down 掉
对于处于 stale 状态的 pg,通常的做法是让对应的 osd 启动。对于 inactive 状态的 pg,通常是一个 peering 问题。对于处于 unclean 状态的 pg ,通常表明有些问题在阻止恢复,比如 object unfound。
placement group down peering failure
有些情况,ceph-osd peering 过程可能出问题,导致 pg 无法 active 和使用。例如下面的问题
[root@k8sGUPMaster01 ~]# ceph health detail
HEALTH_WARN Reduced data availability: 1 pg inactive, 1 pg peering
PG_AVAILABILITY Reduced data availability: 1 pg inactive, 1 pg peering
pg 8.15 is stuck peering for 609046.271579, current state peering, last acting [44,29,38]
使用 ceph pg query 查

本文详细介绍了在Ceph存储系统中遇到的pg(Placement Group)问题,如stuck在degraded、peering或inactive状态的解决办法。通过`ceph health detail`和`ceph pg dump_stuck_inactive`等命令进行诊断,并提供了针对不同状态的解决策略,如重启osd、标记osd为lost等。此外,还提到了unfound object的情况以及如何处理。最后,讨论了pg inconsistent状态的修复方法,如使用`ceph pg repair`命令。
最低0.47元/天 解锁文章
502

被折叠的 条评论
为什么被折叠?



