Prometheus存储位置“opening storage failed: lock DB directory: open /data/lock: no space left on device“

本文记录了一次Prometheus存储位置的迁移过程。由于未指定存储路径,默认使用了/data目录,导致磁盘空间不足。通过调整配置,将数据迁移到了更大的磁盘分区。

1、 背景

记录一次Prometheus存储位置修改,准生产环境部署的Prometheus隔了一段时间发现服务挂掉了,排查发现存储磁盘空间爆满导致的,Prometheus是一个时序数据库,所以采集到的数据建议存储位置相对给较大些!

2、排查

# 查看日志信息
systemctl status prometheus
journalctl -u prometheus.service -f

发现日志最后几行存在明显的错误信息(不能够打开目录,设备上没有剩余空间):

"opening storage failed: lock DB directory: open /data/lock: no space left on device"

这里我的Prometheus安装位置在/dcos下,相应的也挂载了400G的磁盘,由于没有指定存储位置,默认应该在dcos/prometheus/data/目录下才合适

怀疑:可能是由于生产环境下部署的位置在/data 目录下,而准生产环境为了方便直接将生产环境的所有内存拷贝过来一份导致服务启动时加载了之前的位置
由此可见两套环境完全一直还是很有必要的也很重要的,这次生产环境和准生产环境直接的目录挂在(甚至,生产环境中k8s节点间的数据挂载目录都不一样),给这次项目上云带来了一些的麻烦(没办法底层基础设施是别人搞得)

3、处理方法

  • /data/目录下的所有Prometheus文件剪切到/dcos/prometheus/data目录下(好在/data目录下没有其他服务的问文件,全是Prometheus的存储文件)
  • 如果不想要以前的数据也可以直接删了不要
  • 修改Prometheus启动命令,指定存储位置--storage.tsdb.path="/dcos/prometheus/data/"
# 重启服务并检查
systemctl daemon-reload
systemctl start prometheus
当遇到 Prometheus 存储打开失败,因 WAL(预写日志)文件丢失导致的错误(如 `opening storage failed: repair corrupted WAL: cannot handle error: open WAL segment: 938: open /data/prometheus/prometheus/data/wal/00000938: no such file or directory`),可以尝试以下方法解决: ### 检查文件权限 确保 Prometheus 进程有足够的权限访问 WAL 文件目录。若权限不足,可能会出现文件无法打开的错误。可以使用以下命令修改目录权限: ```bash chmod -R 755 /data/prometheus/prometheus/data/wal ``` 此命令将 `/data/prometheus/prometheus/data/wal` 目录及其子目录和文件的权限修改为 755,即所有者有读、写、执行权限,组用户和其他用户有读和执行权限。 ### 备份并清理 WAL 目录 如果 WAL 文件已损坏或丢失,可以备份并清理 WAL 目录,然后重新启动 Prometheus。 ```bash # 备份 WAL 目录 cp -r /data/prometheus/prometheus/data/wal /data/prometheus/prometheus/data/wal_backup # 清理 WAL 目录 rm -rf /data/prometheus/prometheus/data/wal # 创建新的 WAL 目录 mkdir /data/prometheus/prometheus/data/wal ``` 清理 WAL 目录后,重新启动 Prometheus,它会重新创建 WAL 文件。 ### 检查磁盘空间 确保磁盘有足够的空间来存储 WAL 文件。可以使用 `df -h` 命令查看磁盘使用情况: ```bash df -h ``` 若磁盘空间不足,需要清理磁盘或扩展磁盘空间。 ### 检查 Prometheus 配置 确保 Prometheus 配置文件中的存储路径配置正确。可以检查 `prometheus.yml` 文件中的 `storage.tsdb.path` 配置项: ```yaml storage: tsdb: path: /data/prometheus/prometheus/data ``` 确保该路径指向正确的存储目录。 ### 检查系统资源 确保系统有足够的资源(如内存、CPU)来运行 Prometheus。可以使用 `top` 或 `htop` 命令查看系统资源使用情况。 ### 参考类似错误的解决方法 在处理 `opening storage failed` 相关错误时,可以参考类似错误的解决方法。例如,当遇到 `err="Opening storage failed removing segment failed: remove /prometheus/wal/00000234: permission denied"` 错误时,需要检查文件权限;当遇到 `err="opening storage failed: lock DB directory: resource temporarily unavailable"` 错误时,需要删除 `data` 目录下的 `lock` 文件 [^1][^3]。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值