1.客户反映 平台虚拟机无法登陆。由于无法远程接入,去客户现场解决
2.排查过程
2.1 与客户交流中,得知客户有大量数据写入云平台。
2.2 登陆平台底层,检查存储使用量如下:
[root@compute01 ~]# ceph df
GLOBAL:
SIZE AVAIL RAW USED %RAW USED
9895G 1668G 8227G 83.14
POOLS:
NAME ID USED %USED MAX AVAIL OBJECTS
hdd 1 0 0 164G 0
volumes 2 2161G 65.53 164G 578198
images 3 642G 19.48 164G 195493
custmized-hdd 4 0 0 164G 0
backups 5 0 0 164G 1
[root@compute01 ~]#
[root@xx ~]# ceph osd df
ID WEIGHT REWEIGHT SIZE USE AVAIL %USE VAR PGS
0 0.48318 1.00000 494G 396G 100806M 80.10 0.98 308
1 0.48318 1.00000 494G 452G 43395M 91.43 1.11 326
2 0.48318 1.00000 494G 401G 95002M 81.25 0.99 303
3 0.48318 1.00000 494G 390G 104G 78.85 0.96 291
4 0.48318 1.00000 494G 359G 135G 72.65 0.89 291
5 0.48318 1.00000 494G 432G 63416M 87.48 1.07 324
6 0.48318 1.00000 494G 399G 97411M 80.77 0.98 291
7 0.48318 1.00000 494G 379G 115G 76.65 0.93 309
8 0.48318 1.00000 494G 440G 55395M 89.07 1.09 276
9 0.48318 1.00000 494G 337G 157G 68.21 0.83 278
10 0.48318 1.00000 494G 392G 101G 79.43 0.97 320
11 0.48318 1.00000 494G 386G 108G 78.03 0.95 297
12 0.48318 1.00000 494G 355G 138G 71.94 0.88 305
13 0.48318 1.00000 494G 424G 72269M 85.74 1.04 310
14 0.48318 1.00000 494G 463G 31559M 93.77 1.14 291
15 0.48318 1.00000 494G 429G 66993M 86.78 1.06 286
16 0.48318 1.00000 494G 391G 102G 79.20 0.97 303
17 0.48318 1.00000 494G 433G 62271M 87.71 1.07 291
18 0.48318 1.00000 494G 445G 50063M 90.12 1.10 299
19 0.48318 1.00000 494G 406G 90497M 82.14 1.00 301
TOTAL 9895G 8120G 1774G 82.07
MIN/MAX VAR: 0.83/1.14 STDDEV: 6.69
###检查ceph的健康状况,处于错误状态,IO读写处于禁止状态,其中有1个osd盘 已满,7个osd接近满
[root@compute01 ~]# ceph -s
cluster a924c66b-a170-4e1e-b61b-75142d5d25d6
health HEALTH_ERR
1 full osd(s)
7 near full osd(s)
monmap e1: 3 mons at {ceph01=10.102.1.14:6789/0,ceph02=10.102.1.15:6789/0,ceph03=10.102.1.16:6789/0}
election epoch 58, quorum 0,1,2 ceph01,ceph02,ceph03
osdmap e1359: 20 osds: 20 up, 20 in
flags full,sortbitwise
pgmap v15298099: 2000 pgs, 5 pools, 2804 GB data, 755 kobjects
8227 GB used, 1668 GB / 9895 GB avail
2000 active+clean
[root@compute01 ~]#
##有以上两点确认由于ceph集群磁盘使用量超过阈值,IO禁止读写,导致整个平台虚拟机无法使用。
3 解决方案
3.1 删除ceph集群部分数据,使使用量恢复到正常阈值以内
3.2 增加ceph集群容量
##和客户沟通后确认使用第一种方案
过程:
3.1 底层删除虚拟机数据盘,使 ceph 集群恢复到使用阈值以内
###查看 ceph pool 中相应的虚拟机数据盘卷ID
rbd osd pool ls
imgages
volumes
backups
rbd remove volumes/volume-xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
##如果无法删除需要解锁,
[root@compute02 ~]# ceph osd unset full
unset full
##删除 卷之后查看 ceph 集群 容量
[root@compute01 ~]# ceph df
GLOBAL:
SIZE AVAIL RAW USED %RAW USED
9895G 7561G 2333G 23.58
POOLS:
NAME ID USED %USED MAX AVAIL OBJECTS
hdd 1 0 0 2314G 0
volumes 2 141G 4.28 2314G 37169
images 3 639G 19.38 2314G 195133
custmized-hdd 4 0 0 2314G 0
backups 5 0 0 2314G 1
[root@compute02 ~]#
###osd 盘的使用量
ID WEIGHT REWEIGHT SIZE USE AVAIL %USE VAR PGS
0 0.48318 1.00000 494G 112G 382G 22.69 0.96 308
1 0.48318 1.00000 494G 147G 347G 29.82 1.27 326
2 0.48318 1.00000 494G 107G 387G 21.72 0.92 303
3 0.48318 1.00000 494G 111G 383G 22.57 0.96 291
4 0.48318 1.00000 494G 112G 382G 22.78 0.97 291
5 0.48318 1.00000 494G 131G 363G 26.51 1.12 324
6 0.48318 1.00000 494G 113G 381G 22.97 0.97 291
7 0.48318 1.00000 494G 122G 372G 24.69 1.05 309
8 0.48318 1.00000 494G 101G 393G 20.54 0.87 276
9 0.48318 1.00000 494G 102003M 395G 20.13 0.85 278
10 0.48318 1.00000 494G 124G 369G 25.24 1.07 320
11 0.48318 1.00000 494G 110G 383G 22.41 0.95 297
12 0.48318 1.00000 494G 128G 366G 26.01 1.10 305
13 0.48318 1.00000 494G 106G 388G 21.55 0.91 310
14 0.48318 1.00000 494G 114G 380G 23.14 0.98 291
15 0.48318 1.00000 494G 129G 365G 26.08 1.11 286
16 0.48318 1.00000 494G 106G 388G 21.57 0.91 303
17 0.48318 1.00000 494G 97856M 399G 19.32 0.82 291
18 0.48318 1.00000 494G 135G 358G 27.46 1.16 299
19 0.48318 1.00000 494G 120G 374G 24.31 1.03 301
TOTAL 9895G 2332G 7562G 23.58
MIN/MAX VAR: 0.82/1.27 STDDEV: 2.59
3、平台虚拟机 状态恢复,可以正常使用
4、由于 本平台的ceph 集群使用的是3副本,物理磁盘共10TB,真实逻辑使用量为3TB,最多可使用3TB * 70% =2.1TB 的时候
应该考虑增加存储容量或停止写入数据