PLEG is not healthy: pleg was last seen active 3m41.181953228s ago； threshold is 3m0s.

原创已于 2025-04-02 16:53:22 修改 · 193 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#服务器

于 2024-12-15 17:43:30 首次发布

DBA 专栏收录该内容

1069 篇文章

订阅专栏

1. PLEG健康检查问题

问题描述

PLEG（Process Lifecycle Event Generator）是Docker中用于监控容器生命周期事件的组件。如果PLEG的最后活跃时间超过了设定的阈值（如3分钟），则会触发健康检查失败的警告。

可能原因

容器事件积压：Docker守护进程可能无法及时处理容器事件，导致PLEG状态滞后。
资源耗尽：系统资源（如CPU、内存、文件描述符）不足，导致PLEG无法正常工作。
Docker守护进程问题：Docker守护进程可能存在问题（如崩溃、挂起）。
网络问题：Docker守护进程与容器之间的通信可能受到干扰。

解决方案

检查Docker守护进程日志：
```
journalctl -u docker.service -n 100
```
查看是否有与PLEG相关的错误日志。

优化Docker配置：

增加Docker守护进程的资源限制（如文件描述符）：

echo "DefaultLimitNOFILE=1048576" >> /etc/systemd/system/docker.service.d/docker.conf
systemctl daemon-reload
systemctl restart docker

清理僵尸容器：

docker ps -aqf "status=exited" | xargs docker rm

升级Docker版本：
确保使用的是最新版本的Docker，以避免已知的bug。
监控系统资源：
使用工具（如htop、vmstat）监控系统资源使用情况，确保资源充足。

2. Docker容器检查命令

命令分析

for c in $(docker ps -qa); do echo inspect $c; docker inspect $c > /dev/null; done;

作用：对所有Docker容器执行docker inspect检查。
潜在问题：
- docker inspect会生成大量输出，可能导致性能问题。
- 如果容器数量较多，该命令可能耗时较长。

优化建议

限制检查范围：

for c in $(docker ps -q); do docker inspect $c --format '{{.Id}}: {{.State.Status}}'; done

仅检查正在运行的容器，并简化输出格式。

使用docker stats替代：
```
docker stats --no-stream
```
快速查看容器的资源使用情况。

使用docker ps过滤异常容器：

docker ps -aqf "status=exited" -f "status=dead"

3. 文件描述符统计命令

命令分析

for pid in /proc/[0-9]*; do
    if [ -d "$pid/fd" ]; then
        echo "$(basename $pid) $(find $pid/fd | wc -l)";
    fi;
done | sort -k2,2n -r > pid1.txt

作用：统计每个进程的文件描述符数量，并按降序排序。
潜在问题：
- 遍历所有进程可能导致性能问题。
- find命令可能生成大量I/O操作。

优化建议

使用lsof替代：

lsof | awk '{print $2}' | sort | uniq -c | sort -nr > pid1.txt

更高效地统计文件描述符数量。

限制检查范围：
仅检查特定用户或进程：

lsof -u <username> | awk '{print $2}' | sort | uniq -c | sort -nr

使用ss替代netstat：
如果需要统计网络连接相关的文件描述符：
```
ss -tan | awk '{print $NF}' | sort | uniq -c | sort -nr
```

4. 最佳实践

系统监控

使用工具（如Prometheus、Grafana）进行系统和Docker的全面监控。
定期检查系统资源（CPU、内存、文件描述符）使用情况。

日志管理

配置Docker日志轮转：

echo '{
  "log-driver": "json-file",
  "log-opts": {
    "max-size": "100m",
    "max-file": "3"
  }
}' > /etc/docker/daemon.json
systemctl restart docker