ceph更换硬盘

最新推荐文章于 2025-08-27 10:36:08 发布

原创

最新推荐文章于 2025-08-27 10:36:08 发布 · 1.1k 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#ceph #kubernetes

文章描述了在一个运行中的Ceph集群中发现健康警告，涉及crasheddaemon、osd状态和crash记录。操作包括检查集群状态、定位故障点、停止服务、移除故障硬盘并更新配置以添加新硬盘。

ceph -s //检查故障

k8s70132:~$ ceph -s
  cluster:
    id:     d10b3028-b78d-4b23-bacb-ca26c0a35c99
    health: HEALTH_WARN
            1 daemons have recently crashed
 
  services:
    mon: 5 daemons, quorum k8sceph70201,k8sceph70202,k8sceph70203,k8sceph70204,k8sceph70205 (age 4d)
    mgr: k8sceph70204(active, since 11w), standbys: k8sceph70201, k8sceph70205
    mds: cephfs:1 {0=k8sceph70204=up:active} 2 up:standby
    osd: 23 osds: 22 up (since 4d), 22 in (since 4d)
    rgw: 3 daemons active (k8sceph70201, k8sceph70204, k8sceph70205)
 
  task status:
 
  data:
    pools:   11 pools, 281 pgs
    objects: 809.23k objects, 24 GiB
    usage:   159 GiB used, 38 TiB / 38 TiB avail
    pgs:     281 active+clean
 
  io:
    client:   47 KiB/s wr, 0 op/s rd, 2 op/s wr

这里health有告警,查看故障点：

ceph crush ls

k8s70132:~$ ceph crash ls
ID                                                                ENTITY  NEW  
2

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

潮落拾贝

关注关注

2
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

Ceph入门到精通-更换osd、扩容osd

隔壁老瓦的专栏

02-19

1404

【代码】Ceph入门到精通-更换osd、扩容osd。

分布式存储ceph---ceph osd 故障硬盘更换（6）

qq_45255414的博客

11-04

3303

正常状态：故障状态：实施更换步骤： 1、关闭ceph集群数据迁移：　　osd硬盘故障，状态变为down。在经过mod osd down out interval 设定的时间间隔后，ceph将其标记为out，并开始进行数据迁移恢复。为了降低ceph进行数据恢复或scrub等操作对性能的影响，可以先将其暂时关闭，待硬盘更换完成且osd恢复后再开启： 1 foriinnoout nobackfill norecover noscrub nodeep-...

参与评论您还未登录，请先登录后发表或查看评论

CEPH 更换OSD故障硬盘

不要害怕_Cullen

11-25

1300

替换硬盘把 OSD 踢出集群 ceph osd out osd.xx 停止osd服务 systemctl stop ceph-osd@xx 删除OSD L版本之前 #在monitor上操作 ceph osd crush remove osd.xx ceph auth del osd.xx ceph osd rm osd.xx L版本开始 ceph osd purge osd.xx --yes-i-really-mean-it 卸载磁盘 umount /var/lib/ceph/osd/ceph-xx .

分布式存储ceph——（5）ceph osd故障硬盘更换

diaochanlan8754的博客

04-17

972

正常状态：故障状态：实施更换步骤：（1）关闭ceph集群数据迁移： osd硬盘故障，状态变为down。在经过mod osd down out interval 设定的时间间隔后，ceph将其标记为out，并开始进行数据迁移恢复。为了降低ceph进行数据恢复或scrub等操作对性能的影响，可以先将其暂时关闭，待硬盘更换完成且osd恢复后再开启...

Ceph更换OSD磁盘

weixin_34393428的博客

06-25

1900

目录简介更换OSD操作步骤 1. 故障磁盘定位 2. 摘除故障磁盘 3. 重建raid0 4. 重建osd 控制数据恢复及回填速度简介首先需要说明的是，ceph的osd是不建议做成raid10或...

容器化ceph集群更换硬盘操作

gaoyifeng

07-02

628

更换硬盘前操作进入ceph_mon容器，查看当前ceph集群的状态 docker exec -it ceph_mon ceph -s 设置标识位 docker exec -it ceph_mon ceph bash ceph osd set noout ceph osd set nobackfill ceph osd set norecover ceph osd set noin 停止ceph_osd对应的服务 docker stop ceph_osd_1 踢出集群 docker exec -i.

ceph集群更换故障硬盘

weixin_54413274的博客

12-19

1028

注意：有可能需要加\转义一下: ceph tell osd.\* injectargs '--osd_max_backfills=1 --osd_recovery_sleep=0.5'ceph-deploy --overwrite-conf osd prepare 主机名:sdc:/dev/sdl2。#确认数据盘在阵列卡上的物理信息，以下显示表示这块盘的物理信息为/c0/e2/s3。1. 检测/var/log/ceph/ceph-osd.291.log是否有报错。

ceph19.2 squid版本容器化OSD 使用独立 db 盘,data盘损坏后的更换硬盘重建流程

最新发布

zhangdd的博客

08-27

342

ceph19.2 squid版本容器化OSD 使用独立 db 盘损坏后的重建流程

【ceph】ceph集群的节点机器重启，导致磁盘的lvm消失，如何恢复呢～

m0_54903333的博客

04-18

849

先自我介绍一下，小编浙江大学毕业，去过华为、字节跳动等大厂，目前阿里P7深知大多数程序员，想要提升技能，往往是自己摸索成长，但自己不成体系的自学效果低效又漫长，而且极易碰到天花板技术停滞不前！因此收集整理了一份《2024年最新软件测试全套学习资料》，初衷也很简单，就是希望能够帮助到想自学提升又不知道该从何学起的朋友。既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上软件测试知识点，真正体系化！由于文件比较多，这里只是将部分目录截图出来，全套包含大厂面

分布式存储节点替换故障硬盘(filestore+LVMcache)

weixin_43948680的博客

09-10

917

此文档操作方法适用于>=V13.2.5 ceph版本，部署模式为filestore，将每一块机械盘(LVM卷)对应一个OSD进程，并且journal日志放在ssd加速盘上

ceph更换磁盘步骤

junming_zhao的博客

05-19

3322

我们经常面临 ceph的磁盘损坏，需要更换磁盘。以下是更换磁盘的步骤

Ceph分布式存储更换磁盘操作步骤

weixin_33834679的博客

03-14

1141

Ceph分布式存储更换磁盘操作步骤1、确认需要更换的磁盘对应的盘符、OSD ID ;root@Ceph-B**A**-04-S2-60:~# df -h |grep 17/dev/sdp3 1.1T 566G 551G 51% /var/lib/ceph/osd/ceph-172、确认磁盘对应的槽位；root@Ceph-B**A**-04-S2-60:~# ...

ceph更换磁盘不改变引起大量数据迁移

system_zhazha的博客

05-29

2391

一、需求新更换后的磁盘，需满足如下要求(根本是为了保持pg分布情况不变，避免其他无关osd上的pg重新计算分布)：保持ID不变系统crushmap不变二、所用工具 ceph-disk ceph 三、配置方法 3.1 初始化配置文件 [root@node0 ]$ cat /etc/ceph/init.conf [global] osd_journal_size = 30720 #...

rbd mirror服务无法实现开机自启动

huigui65的博客

07-10

1037

1、一个ceph集群机器重启后rbd-mirror服务没有自动重启。 [root@node-1-clz-1 ~]# systemctl enable ceph-rbd-mirror@admin Created symlink from /etc/systemd/system/ceph-rbd-mirror.target.wants/ceph-rbd-mirror@admin.service to...

第二课 ceph基础学习-OSD扩容换盘和集群运维

QnHyn

10-19

2474

osd扩容还盘和集群运维

ceph osd 更换硬盘记录

weixin_34341229的博客

11-08

843

1 确认故障磁盘 dmesg [6061566.878131] sd 0:2:2:0: [sdc] [6061566.878141] sd 0:2:2:0: [sdc] [6061566.878147] sd 0:2:2:0: [sdc] [6061566.878152] sd 0:2:2:0: [sdc] CDB: [6061566.8781...

【ceph】如何打印一个osd的op流程，排查osd在干什么

zerotoall的博客

11-24

575

【ceph】如何打印一个osd的op流程，排查某个osd具体在干什么

ceph更换故障盘

05-27

### 更换 Ceph 存储系统中故障硬盘的解决方案在 Ceph 分布式存储系统中，更换故障硬盘是一个常见的维护任务。以下是关于如何处理硬盘故障以及更换硬盘的操作指南。 #### 1. 确认硬盘故障当硬盘出现故障时，Ceph 的 OSD（对象存储守护进程）可能会进入 `down` 或 `out` 状态。可以使用以下命令检查集群状态并确认问题： ```bash ceph health detail ``` 此命令会显示集群的整体健康状况，并列出任何未正常工作的 OSD[^3]。 #### 2. 查找卡住的 PGs 如果某些 Placement Groups (PGs) 卡住或未能恢复，可以使用以下命令查找卡住的 PGs： ```bash ceph pg dump_stuck stale ceph pg dump_stuck inactive ceph pg dump_stuck unclean ``` 这些命令可以帮助定位可能由于硬盘故障导致的问题 PGs[^2]。 #### 3. 停止故障 OSD 找到对应的故障 OSD 后，停止该 OSD 服务以确保不会对集群造成进一步影响： ```bash systemctl stop ceph-osd@<OSD_ID> ``` 替换 `<OSD_ID>` 为实际的 OSD 编号。 #### 4. 替换故障硬盘物理替换硬盘是下一步操作。确保新硬盘与原硬盘具有相同的容量或更大。完成硬件替换后，需要初始化新硬盘并重新加入到 Ceph 集群中。 #### 5. 初始化新硬盘使用以下命令将新硬盘格式化为 Ceph 兼容的存储设备： ```bash ceph-volume lvm create --data /dev/sdX ``` 这里 `/dev/sdX` 是新硬盘的设备路径。此命令会将硬盘初始化为 LVM 格式，并将其标记为 Ceph 使用。 #### 6. 重启 OSD 服务初始化完成后，启动对应的 OSD 服务： ```bash systemctl start ceph-osd@<OSD_ID> ``` #### 7. 监控恢复过程硬盘更换后，Ceph 将自动开始数据恢复过程。可以通过以下命令监控恢复进度： ```bash ceph -s ``` 观察 `recovery` 字段，确保数据正在从其他副本重新同步到新硬盘上。根据硬盘大小和网络带宽，恢复时间可能较长。例如，对于 1.2TB 的硬盘，即使读写速度达到 200MB/s 的峰值，也需要接近两小时才能完成同步[^1]。 #### 8. 检查集群健康恢复完成后，再次检查集群健康状态以确保所有 PGs 处于 `active+clean` 状态： ```bash ceph health ``` --- ### 注意事项 - 如果硬盘故障导致数据丢失，Ceph 会尝试从其他副本中恢复丢失的数据。但如果所有副本都发生故障，则可能需要手动干预来恢复数据[^4]。 - 在更换硬盘期间，建议暂停非必要的写入操作以减少对集群的压力。 ---