Kubernetes存活控针（livenessProbe）导致容器不断重启的问题解决

最新推荐文章于 2025-06-12 15:19:21 发布

原创

最新推荐文章于 2025-06-12 15:19:21 发布 · 512 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#kubernetes #容器 #云原生

文章讲述了在Kubernetes部署中，由于容器启动速度慢导致的livenessProbe触发重启的问题。提出通过添加startupProbe来解决此问题，确保在容器启动后才执行健康检查。参考了稀土掘金和华为云的相关文章。

文章目录

小结
问题
解决
参考

小结

Kubernetes存活控针导致容器不断重启，进行了解决。

问题

项目部署中有一个容器启动速度相当慢，大概要3分钟以上，在容器的配置中使用了livenessProbe （存活控针）和readinessProbe，如下：

livenessProbe:
  httpGet: 
    path: $HEALTH_URL  
    port: $PORT       
    scheme: HTTP      
  initialDelaySeconds: 30  
  timeoutSeconds: 5        
  periodSeconds: 10        
  successThreshold: 1     
  failureThreshold: 5

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

scruffybear

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

Kubernetes Pod健康检查：LivenessProbe、ReadinessProbe与startupProbe

✨ 欢迎来到【Seal ^_^ 的优快云博客】！✨

08-01

4895

在Kubernetes中，Pod的健康检查机制是确保应用稳定性和可靠性的关键。主要通过以下三种探针实现：

Kubernetes中的就绪(readinessProbe)和存活(livenessProbe)探针

WannaRunning的博客

08-04

941

这篇文章开头，先列举几个我曾遇到过的因为探针参数使用不当而引发的k8s滚动升级的问题。

参与评论您还未登录，请先登录后发表或查看评论

kubernetes的三种探针startupprobe,ReadinessProbe,LivenessProbe记录

Zzzzzz的博客

09-18

1909

kubernetes的三种探针

kuberbetes 容器探测（liveness/readiness probes）

haylee的专栏

03-10

383

liveness probes：存活性探针，用于检测应用实例当前是否处于正常运行状态，如果不是，k8s会重启容器 readiness probes：就绪性探针，用于检测应用实例当前是否可以接收请求，如果不能，k8s不会转发流量

K8S 三种探针ReadinessProbe、LivenessProbe和StartupProbe 之探索

qq_57377057的博客

01-17

1813

K8S提供了三种探针通过对三种探针的探索，我们能够得到一句话的总结：理解底层结构，能够最大程度在可用性、安全性，持续性等方面让 Pod 达到最佳工作状态。凡事没有“银弹”，尤其对重要的业务需要一个案例一个解决方案，希望这次的分析能提供给大家开启一个思路之门。

livenessProbe健康检查，实现每天重启一次pod

m0_63004677的博客

07-04

512

k8s健康检查，实现每天重启一次pod

pod配置Liveness和Readiness探针

全栈工程师开发手册（原创）https://github.com/tencentmusic/cube-studio

12-08

4437

本文将向您展示如何配置容器的存活和可读性探针。 kubelet 使用 liveness probe（存活探针）来确定何时重启容器。例如，当应用程序处于运行状态但无法做进一步操作，liveness 探针将捕获到 deadlock，重启处于该状态下的容器，使应用程序在存在 bug 的情况下依然能够继续运行下去。 Kubelet 使用 readiness probe（就绪探针）来确定容器是否已经就绪可以...

14.Kubernetes 存活性探针（Liveness Probe）详解

Anwen的博客

04-13

1278

区分存活性与就绪性探针存活探针关注容器是否正常运行（失败触发重启），就绪探针关注容器是否准备好接收流量（失败则从 Service 中移除）。对启动耗时的应用（如加载大数据文件），需配置 startupProbe 延迟 livenessProbe 检测，防止启动阶段被误重启。避免与启动探针冲突若容器启动较慢，需配合启动探针（Startup Probe）使用，确保存活探针不会在启动阶段误判。依赖外部资源的服务若服务因依赖项故障（如数据库连接失败）无法运行，探针可重启容器尝试恢复。

存活探针（Liveness Probe）

weixin_43748495的博客

06-12

1014

Kubernetes存活探针（LivenessProbe）是确保容器健康的重要机制，支持HTTP GET、TCP Socket和Exec三种检查方式。HTTP GET检查2xx/3xx响应，TCP Socket测试端口连接，Exec验证命令退出码。探针可配置延迟、超时、周期等参数，建议设置initialDelaySeconds避免过早检测。有效探针应检查应用核心功能但不依赖外部服务，且需保持轻量避免资源消耗。与存活探针对应的就绪探针（ReadinessProbe）用于不同场景，两者共同保障应用可靠性。合理配

【Pod故障处理】Pod 无限重启且流量异常

2401_89314348的博客

12-03

643

Pod 慢启动 + 存活探测导致被无限重启。需要延长或StartProbe来保护慢启动容器。TCP 探测方式不能完全真实反映业务健康状态，导致在优雅终止过程中，ReadinessProbe 探测成功让流量放进来而业务却不会处理，导致流量异常。需要使用更好的探测方式，建议业务提供 HTTP 探活接口，使用 HTTP 探测业务真实健康状态。

K8S学习之容器探测 livenessProbe、readinessProbe、startupProbe、lifecycle

weixin_60092693的博客

12-18

2878

容器探测所谓容器探测就是我们在里面设置了一些探针，或者传感器来获取相应的数据用来判断容器是否启动、存活、就绪的标准；目前k8s支持的探针有三种：livenessProbe、readinessProbe、startupProbe。（可以混用）探测类型有三种：exec、httpGet、tcpSocket。我们平时定义的时候只需要定义任意一个即可。如果探测失败，kubelet杀掉该容器，并根据容器的重启策略做相应的处理（readinessProbe不会重启pod）。命令行查看探针 [root@master

[Microk8s] calico-kube-controller not running: Failed to initialize Calico datastore error... 解决方法

pcj_888的博客

05-08

2565

[Microk8s] calico-kube-controller not running: `Failed to initialize Calico datastore error=Get “https://10.152.183.1:443/apis/crd.projectcalico.org/v1/clusterinformations/default”: context deadline exceeded` 解决方法

关于k8s的pod不断重启的原因分析

passerby64的博客

07-04

5371

Kubernetes 具有完备的集群管理能力，包括多层次的安全防护和准入机制、多租户应用支撑能力、透明的服务注册和服务发现机制、内建智能负载均衡器、强大的故障发现和自我修复能力、服务滚动升级和在线扩容能力、可扩展的资源自动调度机制、多粒度的资源配额管理能力。健康检查是在pod中，可能容器进程存在，pod状态也为runing，但容器内部无法提供服务了（可能是因为堆内存溢出等）这种k8s自身无法判断，需要用户来提供检查方式从情况下使用的。（可以理解为提出k8s的负载均衡）.yaml，再apply -f?

CKA备考实验 | liveness probe

COCO_gsta的博客

07-04

323

书籍来源：《CKA/CKAD应试指南：从Docker到Kubernetes完全攻略》liveness探测到某个pod运行有问题的话，就会通过重启pod来解决问题。所谓的重启，本质上就是把这个pod删除，然后创建出来一个同名的pod。

Kubernetes 健康检查之 livenessProbe/readinessProbe

最新发布

08-01

<think>嗯，用户这次提出了一个关于Kubernetes探针配置不当可能引发的问题，结合之前讨论的readinessProbe和livenessProbe配置原则，需要系统性地分析误配置带来的风险。注意到用户提供了几个引用片段，虽然这些引用主要涉及Kubernetes集群部署细节（如/etc/kubernetes/config配置[^1]、flannel网络配置[^3][^5]、controller-manager参数[^4]），但和当前问题关联度不高。核心还是要聚焦探针机制本身。用户深层需求应该是想规避生产环境中的稳定性风险。从运维角度看，探针配置不当引发的问题往往具有链式反应特点，比如： - readinessProbe过于敏感会导致服务频繁从负载均衡器摘除，触发下游重试风暴 - livenessProbe容忍度不足可能引发JVM应用在GC期间被误杀这正好延续了上次关于"GC停顿时间与探针超时关系"的讨论[历史对话]。需要特别强调几个关键故障场景： 1. 当readinessProbe的failureThreshold设置小于下游重试次数时，假设下游服务重试3次（间隔1秒），而probe周期5秒且失败阈值仅2次，就会在10秒内摘除Pod，但此时下游可能还在重试，导致部分请求必然失败 2. livenessProbe超时时间若小于2倍最大GC停顿，在Full GC期间探针必然超时。更危险的是，如果同时配置了failureThreshold=1，一次Full GC就会导致容器重启，形成"重启循环" 3. 引用中提到的网络配置[^5]其实也有潜在影响：当使用host-gw模式的flannel时，网络延迟可能比vxlan模式低，但这反而要求probe超时设置更精确，因为网络抖动余量变小了针对用户问题，应该用故障树的形式展开，把根本原因（如配置参数）、直接现象（如503错误）、衍生影响（如雪崩效应）分层说明。最后补充的监控方案特别重要，因为很多探针问题需要结合metrics才能定位，比如kubelet日志中的"probe timeout"事件。用户可能是运维工程师或SRE，正在设计高可用方案。可以预判ta接下来会问如何监控探针状态，或者Service Mesh中的差异处理（引用[2]提到CoreDNS），这些都可以作为衍生问题预留接口。</think>以下是 Kubernetes 中 `readinessProbe` 和 `livenessProbe` 配置不当可能引发的典型问题及根本原因分析： --- ### 一、readinessProbe 配置不当的后果 #### 1. **流量中断（误摘除 Pod）** - **场景**： `failureThreshold` 过小（如 ≤ 下游服务重试次数）时，短暂故障会导致 Pod 过早被移出负载均衡 - **故障链**： ```mermaid graph LR A[下游服务重试] --> B[readinessProbe失败] B --> C[负载均衡摘除Pod] C --> D[健康Pod失去流量] D --> E[服务容量下降] ``` - **典型表现**： - 频繁出现 `503 Service Unavailable` 错误 - Kubernetes 事件日志：`kubectl get events` 显示 `Unhealthy` 警告 - 服务监控中流量曲线出现锯齿状波动[^1] #### 2. **流量风暴（未及时摘除）** - **场景**： `failureThreshold` 过大或 `periodSeconds` 过长，导致故障 Pod 持续接收流量 - **后果**： - 下游服务重试耗尽后仍返回错误 - 可能触发级联故障（如数据库连接池耗尽） - **数据表现**： ```bash # 监控指标异常 kubelet_probe_errors_total{probe_type="readiness"} 飙升 ``` --- ### 二、livenessProbe 配置不当的后果 #### 1. **误杀健康容器** - **致命场景**： `timeoutSeconds` ≤ 最大 GC 停顿时间时，GC 期间探针超时触发重启 - **数学关系**：设 $G_{max}$ = 最大 GC 停顿，$T_{out}$ = 探针超时 $$ \text{误杀条件：} T_{out} \leq G_{max} + T_{network} $$ - **影响**： - 频繁重启导致服务不可用（`CrashLoopBackOff` 状态） - JVM 应用启动耗时长（如 Spring Boot），加剧服务中断[^4] #### 2. **僵尸容器存活** - **场景**： `timeoutSeconds` 过大且 `failureThreshold` 过小 - **后果**： - 进程阻塞或死锁时无法及时重启 - 表现为请求挂起无响应，但探针仍成功 - **监控线索**： ```promql # Prometheus 查询 sum(rate(container_cpu_usage_seconds_total{container!=""}[5m])) by (pod) == 0 # 零 CPU 使用但容器存活 ``` --- ### 三、复合型故障案例 #### 配置错误组合 ```yaml # 危险配置示例 livenessProbe: timeoutSeconds: 1 # <-- 小于典型 GC 停顿(2s) failureThreshold: 1 # <-- 容忍度过低 readinessProbe: failureThreshold: 2 # <-- 小于下游重试次数(3) periodSeconds: 10 ``` #### 故障时间线 ```mermaid gantt title 级联故障时间线 dateFormat s section Pod GC停顿 :a1, 0, 2s Liveness失败 :a2, after a1, 1s 容器重启 :a3, after a2, 5s section 下游服务请求重试1 :b1, 0, 1s 请求重试2 :b2, after b1, 1s 请求重试3 :b3, after b2, 1s Readiness失败 :b4, after b3, 2s Pod摘除 :b5, after b4, 1s ``` **结果**： 1. 第 3 秒：因 GC 导致 liveness 超时，触发重启 2. 第 4 秒：下游重试期间 readiness 失败，Pod 被摘除 3. **双杀效应**：重启中的 Pod 被移除服务发现，服务完全中断 --- ### 四、最佳实践验证方法 #### 1. 压力测试脚本 ```bash # 模拟 GC 停顿 kubectl exec <pod> -- curl -X POST http://localhost:8080/pause?duration=3000ms # 观察探针行为 watch -n 1 "kubectl describe pod <pod> | grep -A 10 'Readiness\|Liveness'" ``` #### 2. 监控关键指标 | 指标名称 | 监控目标 | 告警阈值 | |----------|----------|----------| | `kubelet_prober_probe_duration_seconds` | 探针延迟 | > 80% GC 最大停顿 | | `kube_pod_status_ready` | Pod Ready 状态 | `condition="false"` | | `restart_count` | 容器重启 | > 3次/小时 | --- ### 五、配置调整公式总结 | 探针类型 | 参数 | 安全公式 | |----------------|-------------------|-----------------------------| | readinessProbe | `failureThreshold` | > 下游最大重试次数 × 1.5 | | livenessProbe | `timeoutSeconds` | > 最大 GC 停顿 × 2 + 500ms | | 两者通用 | `periodSeconds` | > 平均请求耗时 × 3 | > **注**：在启用零停机部署（如 Argo Rollouts）时，需额外增加 `failureThreshold` 缓冲[^5] ---