- 问题描述:
从库房利旧一批HDD磁盘,插入服务器后系统识别到显示为sde盘符,通过dd及parted均可以执行格式化及分区,挂载使用无异常,但是创建lv报错提示“ Incorrect metadata area header checksum on /dev/sde at offset 4096;
将硬盘映射给主机,创建PV并添加到VG后,系统提示“unknown device”,此设备需要扩容到ceph集群提供存储服务,新建OSD过程中会新建vg及lv提示错误后自动退出;
- 问题分析:
通过现场报错信息判断,“Incorrect checksum in metadata area header on /dev/sde at 4096。WARNING: Failed to write an MDA of VG bydata. Failed to write VG bydata.”
翻译:
在/dev/sde和/dev/sde设备的4096位置上,元数据区域头部的校验和不正确。
警告:无法写入VG bydata的MDA(元数据区域)。
警告:无法写入VG bydata。
这些错误信息涉及到存储设备的元数据区域头部校验和不正确以及无法写入VG(卷组) bydata 的MDA(元数据区域)的问题。可能存在存储设备的元数据损坏或写入问题。建议检查存储设备的健康状态,确保其正常运行,并可能需要采取适当的措施来修复元数据问题或替换故障的设备。
请注意,这只是一个翻译,实际操作需要根据具体情况进行。
- 问题处理
1. 日志分析
查看messages日志无特殊报错内容。dmesg日志如下:
sd 2:0:12:0: [sde] Very big device. Trying to use READ CAPACITY(16).
sd 2:0:12:0: [sde] Cache data unavailable
sd 2:0:12:0: [sde] Assuming drive cache: write through
sde: sde1
sd 2:0:12:0: [sde] Very big device. Trying to use READ CAPACITY(16).
sd 2:0:12:0: [sde] Cache data unavailable
sd 2:0:12:0: [sde] Assuming drive cache: write through
sde: sde1
EXT4-fs (dm-2): warning: checktime reached, running e2fsck is recommended
EXT4-fs (dm-2): mounted filesystem with ordered data mode. Opts:
通过dmesg日志的输出,可以看到OS层面成功识别到了新增加的磁盘。与客户沟通得知,此块磁盘之前在其他主机上使用过,旧主机已下线。工程师推测硬盘上保存了旧主机的VG/PV信息,需要对其进行进一步处理。
2 剔除问题磁盘
运行命令:vgreduce vm2t --removemissing
[root@KMS-Svr cache]# vgreduce vm2t --removemissing
Incorrect metadata area header checksum on /dev/sde at offset 4096
Couldn't find device with uuid ZPy1sa-fXhe-qrcQ-HFhi-eazU-4Mg3-toY3Xv.
Wrote out consistent volume group vm2t
发现手动删除vg及lv均失败。
并尝试加上--force后仍然删除失败,因此去机房对此硬盘进行物理插拔,拔出后发现vg及lv信息仍然在位,且系统显示为读取lvm信息与实际不符。
3 重新创建PV
运行命令: pvcreate /dev/sde --force
[root@KMS-Svr cache]# pvcreate /dev/sde --force
Physical volume "/dev/sde" successfully created
重新查询pv及lv信息,发现系统原有异常vg及lv告警消失,新的pv信息已对应到sde磁盘;
再次删除pv信息,格式化sde磁盘,
pvremove /dev/sde
ceph-volume lvm zap /dev/sde
再次通过ceph-deploy部署工具新增OSD,整个流程无异常报错,说明磁盘lvm信息已通过校验,此问题恢复。