当三副本池挂了4个osd

原创

于 2024-08-05 10:03:13 发布 · 1.3k 阅读

11 ·

CC 4.0 BY-SA版权

文章标签：

#ceph

介绍

喜欢ceph的话欢迎关注奋斗的cepher微信公众号阅读更多好文！

是的，故障域为host，当一个3副本池，连续有3个不同host的osd坏掉，未来得及迁移完成的pg就会出问题，经常关注松鼠哥博客、公众号的老铁，对这种故障的处理应该说很熟悉，属于基操了~

本篇松鼠哥在测试环境14版本又遇到这种场景，顺手写一下，基操就基操了，谨防有新手同学搞不清楚。

开始

一个压测的测试集群验证某些问题，使用对象存储，环境告警提示有osd又down了，这次不一般，挂掉的osd达到了4个，如果pg来不及完成backfill，那么必然会有数据风险：

[root@testcluster twj]# ceph osd tree down
-555       116.00000 root default                                    
 -47        12.00000     host testcluster-1                            
 519   hdd   1.00000         osd.519              down        0 1.00000 
 -40        12.00000     host testcluster-2                            
 559   hdd   1.00000         osd.559              down        0 1.00000 
 -48        12.00000     host testcluster-3                            
 571   hdd   1.00000         osd.571              down        0 1.00000 
 -62        12.00000     host testcluster-4                            
 610   hdd   1.00000         osd.610              down        0 1.00000

这种情况下，3副本的存储池必然是有pg异常，稍微看了一下只有一个pg为down状态，是12.4ea，用ceph pg 12.4ea query看下具体情况：

......
        "probing_osds": [
            "490",
            "532",
            "638"
        ],
        "blocked": "peering is blocked due to down osds",
        "down_osds_we_would_probe":