前言
ceph osd 异常monclient: _check_auth_rotating possible clock skew, rotating keys expired way too early
的处理。
一、现象
同事联系说云主机执行ll、lsblk等命令时会卡住,要求检查一下。就检查了一下高速云盘的ceph存储集群。发现osd死了很多,检查到了很多异常日志。确认为时间不一致导致的。恢复各个节点的时间后重启异常osd后集群恢复。
最终确认原因为前几天扩容重启之后,没有检查ntp服务的运行状态。
osd.log日志
ceph.log日志
二、恢复工作
1.时间恢复
使用ntpdate 命令同步ntp server节点的时间
ntpdate -b xx.xx.xx.xx
2.重启ntpd服务
重启ntpd服务,并设置开机自启动
systemctl restart ntpd
systemctl enable ntpd
systemctl status ntpd
3. 各个节点上重启osd服务
systemctl restart ceph-osd@0
systemctl restart ceph-osd@1
systemctl restart ceph-osd@2
systemctl restart ceph-osd@3
systemctl restart ceph-osd@27
总结
只要是集群,时间服务就是首位的。
k8s上使用的rook-ceph也会遇到这种问题