介绍
喜欢ceph的话欢迎关注奋斗的cepher微信公众号阅读更多好文!
是的,故障域为host,当一个3副本池,连续有3个不同host的osd坏掉,未来得及迁移完成的pg就会出问题,经常关注松鼠哥博客、公众号的老铁,对这种故障的处理应该说很熟悉,属于基操了~
本篇松鼠哥在测试环境14版本又遇到这种场景,顺手写一下,基操就基操了,谨防有新手同学搞不清楚。
开始
一个压测的测试集群验证某些问题,使用对象存储,环境告警提示有osd又down了,这次不一般,挂掉的osd达到了4个,如果pg来不及完成backfill,那么必然会有数据风险:
[root@testcluster twj]# ceph osd tree down
-555 116.00000 root default
-47 12.00000 host testcluster-1
519 hdd 1.00000 osd.519 down 0 1.00000
-40 12.00000 host testcluster-2
559 hdd 1.00000 osd.559 down 0 1.00000
-48 12.00000 host testcluster-3
571 hdd 1.00000 osd.571 down 0 1.00000
-62 12.00000 host testcluster-4
610 hdd 1.00000 osd.610 down 0 1.00000
这种情况下,3副本的存储池必然是有pg异常,稍微看了一下只有一个pg为down状态,是12.4ea
,用ceph pg 12.4ea query
看下具体情况:
......
"probing_osds": [
"490",
"532",
"638"
],
"blocked": "peering is blocked due to down osds",
"down_osds_we_would_probe":