Kubernetes 三大探针及探针方式

本文介绍了Kubernetes中的三种探针类型:启动探针、就绪探针和存活探针,用于监控和管理Pod的健康状态。启动探针确保应用启动完成,就绪探针决定容器是否接受流量,存活探针则在应用异常时重启容器。探针可通过exec、httpGet和tcpSocket三种方式进行检查,并通过配置项如initialDelaySeconds、periodSeconds等调整检查行为。文中通过实例展示了如何配置和使用这些探针,强调了它们在实际运维中的重要性。

一、探针背景介绍

1、编排工具运行时,虽说pod挂掉会在控制器的调度下会重启,出现pod重启的时候,但是pod状态是running,无法真实的反应当时pod健康状态,我们可以通过Kubernetes的探针监控到pod的实时状态。

二、Kubernetes三种探针类型

启动探针(Startup Probe):判断容器内的应用是否启动完成(在启动探针判断成功前,就绪探针和存活探针将不会执行)

就绪探针(Readiness Probe):判断容器是否已经就绪,若未就绪,容器将会处于未就绪,未就绪的容器,不会进行流量的调度。

存活探针(Liveness Probe):判断容器内的应用程序是否正常,若不正常,K8s 将会重新重启容器。

三、探针的三种方式

exec:通过在容器内执行指定命令,来判断命令退出时返回的状态码,如果为 0 表示正常。

httpGet:通过对容器的 IP 地址、端口和 URL 路径来发送 GET 请求;如果响应的状态码在 200 ~ 399 间,表示正常。

tcpSocket:通过对容器的 IP 地址和指定端口,进行 TCP 检查,如果端口打开,表示正常。

四、配置项

initialDelaySeconds:等待我们定义的时间 结束后便开始探针检查;

periodSeconds:探针的 间隔时间;

timeoutSeconds:探针的 超时时间,当超过我们定义的时间后,便会被视为失败;

successThreshold:探针的 最小连续成功数量;

failureThreshold:探针的 最小连续失败数量;

下面我们分别对这三种探针使用了不同的探针方式,主要是为了方便给大家做一个简单的介绍,并不是固定写法;同时,这三种探针是可以配合使用的;像一般比较常见的便是 就绪探针和存活探针配合使用(启动探针是在 K8s 1.6 版本后增加的

五、探针使用介绍

1)启动探针

apiVersion: v1
kind: Pod
metadata:
  name: nginx-start-up
  namespace: probe
spec:
  containers:
  - name: nginx-start-up
    image: nginx:latest
    ports:
    - containerPort: 80
    startupProbe:
      failureThreshold: 3  #失败三次算探针失败
      exec:
        command: ['/bin/sh','-c','echo Hello World']
      initialDelaySeconds: 20  #延迟20s后进行第一次探针
      periodSeconds: 3 #间隔3s进行一次探针
      successThreshold: 1 #成功一次算探针ok
      timeoutSeconds: 2 #超时2s算失败一次

在这里插入图片描述
2)就绪探针

apiVersion: v1
kind: Pod
metadata:
  name: nginx-ready
  namespace: probe
  labels:
    app: nginx-ready   #验证就绪探针的关键参数
spec:
  containers:
  - name: nginx-ready
    image: nginx:latest
    ports:
    - containerPort: 80
    readinessProbe:
      failureThreshold: 3
      tcpSocket:
        port: 80
      initialDelaySeconds: 20
      periodSeconds: 3
      successThreshold: 1
      timeoutSeconds: 2

端口检测正常:
在这里插入图片描述
写一个nodeport类型进行流量验证

apiVersion: v1
kind: Service
metadata:
  name: ready-nodeport
  labels:
    name: ready-nodeport
  namespace: probe
spec:
  type: NodePort
  ports:
  - port: 88
    protocol: TCP
    targetPort: 80
    nodePort: 30880
  selector:
    app: nginx-ready

模拟流量结果是ok的
在这里插入图片描述
现在修改下就绪探针tcpSocket检测方式的端口为81模拟下探针失败,流量会不会走到该pod
在这里插入图片描述
显示81端口不通,ready状态为0,但pod是running的,请求一下结果如下,流量打入失败。就绪探针失败,是不会给该pod打入流量的。
在这里插入图片描述

3)存活探针

apiVersion: v1
kind: Pod
metadata:
  name: nginx-live
  namespace: probe
  labels:
    app: nginx-live
spec:
  containers:
  - name: nginx-live
    image: nginx:latest
    ports:
    - containerPort: 80
    livenessProbe:
      failureThreshold: 3
      httpGet:
        path: /
        port: 80
        scheme: HTTP
      initialDelaySeconds: 20
      periodSeconds: 3
      successThreshold: 1
      timeoutSeconds: 2

在这里插入图片描述
生成一个nodeport类型service

apiVersion: v1
kind: Service
metadata:
  name: live-nodeport
  labels:
    name: live-nodeport
  namespace: probe
spec:
  type: NodePort
  ports:
  - port: 89
    protocol: TCP
    targetPort: 80
    nodePort: 30810
  selector:
    app: nginx-live

curl进行ip端口校验
在这里插入图片描述
修改httpget中port参数值为81,模拟存活探针失败,探针失败,会让pod进行重启。
在这里插入图片描述

六、探针恢复

修改探针探测端口正确,重新加载yaml文件,流量正常。
在这里插入图片描述

<think>嗯,用户这次想深入了解Kubernetes探针机制,特别是工作原理和配置方法。从对话历史看,用户之前已经了解过K8s的层级结构和规模管理,现在转向更具体的运维功能,可能是为了优化应用稳定性。 用户引用了5个站内资料片段,其中[1][4][5]直接讨论探针,[2]提到Deployment配置,[3]涉及HTTPS代理(虽然不相关但说明用户可能关注生产环境配置)。需要重点整合[1][4][5]的技术点:就绪探针的服务隔离功能、存活探针的重启机制、启动探针的延迟保护,以及者的协同逻辑。 用户没有明确场景,但引用中多次出现"滚动更新""资源优化""企业级应用"等关键词,推测可能是运维人员或架构师,需要解决线上服务的健康管理问题。深层需求或许是避免服务中断或优化资源利用率。 回答框架考虑分部分:先讲清探针的差异(用表格对比会更直观),再解析工作流程(特别是kubelet的执行机制),最后给出配置示例(突出关键参数如initialDelaySeconds的调优)。需要强调实际陷阱,比如存活探针配置不当导致的循环重启——引用[4]提到的启动探针冲突正是典型场景。 用户引用的资料里有个细节值得展开:[1]提到就绪探针能提升资源利用率,这其实关联到Service的流量分配机制,可以补充说明Endpoint Controller如何根据探针结果更新Endpoint。另外[5]指出存活探针不依赖就绪探针结果,这点需要明确强调避免误解。 最后生成的延伸问题要引导用户深入:探针调优必然涉及资源配额(如CPU限制对检测超时的影响),而规模集群的探测风暴则是高级挑战,正好衔接用户之前问过的容器规模管理问题。</think>Kubernetes 探针(Probe)是确保容器应用**健康性**与**可用性**的核心机制,通过定期执行诊断操作来判断容器状态。以下是其工作原理、配置方法及最佳实践的详解: --- ### 一、探针类型与工作原理 | **探针类型** | **触发条件** | **核心作用** | **典型场景** | |--------------------|------------------------------|------------------------------------------------|-----------------------------------------------------------------------------| | **存活探针**<br>(Liveness Probe) | 容器运行中周期性检测 | 检测容器**是否崩溃**<br>失败时**重启容器** | 应用死锁、资源耗尽假死、进程卡死但未退出 | | **就绪探针**<br>(Readiness Probe) | 容器启动后周期性检测 | 检测容器**是否准备好接收流量**<br>失败时**从Service端点移除** | 应用启动依赖初始化(加载配置/连接数据库)、临时过载(高CPU)、滚动更新预热阶段 | | **启动探针**<br>(Startup Probe) | 容器**启动初期**一次性检测 | 保护慢启动容器<br>成功后**才启用其他探针** | Java应用加载JVM、数据服务初始化数据集 | > **关键机制**: > - **kubelet** 在节点上执行探针(默认每10秒检测一次) > - 根据 `successThreshold`/`failureThreshold` 累计成功/失败次数决策 > - 探针结果直接影响 Pod 的 `Ready` 状态和 Endpoint 列表[^1][^5] --- ### 二、探针配置方法(YAML示例) #### 1. 基础配置模板 ```yaml containers: - name: my-app livenessProbe: # 存活探针 httpGet: path: /healthz port: 8080 initialDelaySeconds: 15 # 容器启动后等待时间 periodSeconds: 10 # 检测间隔 failureThreshold: 3 # 连续失败3次判定为故障 readinessProbe: # 就绪探针 tcpSocket: port: 8080 initialDelaySeconds: 5 timeoutSeconds: 1 # 检测超时时间 startupProbe: # 启动探针(K8s v1.18+) exec: command: ["cat", "/app/initialized"] failureThreshold: 30 # 允许最多检测30次(300秒) ``` #### 2. 种检测方式 | **方式** | 配置示例 | 适用场景 | |----------------|----------------------------------|----------------------------------| | **HTTP GET** | `httpGet: { path: /status, port: 80 }` | Web服务状态检测(返回2xx/3xx为成功) | | **TCP Socket** | `tcpSocket: { port: 3306 }` | 数据库端口连通性检测 | | **Exec命令** | `exec: { command: ["pg_isready", "-U", "postgres"] }` | 执行自定义脚本或CLI工具 | --- ### 、最佳实践与避坑指南 1. **启动顺序优化** ```yaml startupProbe: # 先配置启动探针保护初始化 failureThreshold: 30 periodSeconds: 10 livenessProbe: # 延迟存活探针启动 initialDelaySeconds: 60 # 避免与启动阶段冲突[^4] ``` 2. **参数调优建议** - **`initialDelaySeconds`**:必须 > 容器启动时间(观察日志确定) - **`periodSeconds`**:检测频率(高频探针增加节点负载) - **`failureThreshold`**:根据应用容忍度设置(如3次失败=30秒不可用) 3. **生产环境注意事项** - ❌ 避免仅用 `livenessProbe` 检测轻量级操作(如 `/ping`),可能导致频繁重启 - ✅ 就绪探针失败时,结合 `HPA` 自动扩容缓解流量压力 - 🔒 对HTTPS服务需配置 `scheme: HTTPS` 和 `caBundle`[^3] --- ### 四、探针工作流程示意图 ```mermaid graph TD A[容器启动] --> B{Startup Probe 检测} B -- 成功 --> C[启用 Liveness/Readiness Probe] B -- 失败 --> D[重启容器] C --> E{Readiness Probe} E -- 成功 --> F[加入 Service 负载均衡] E -- 失败 --> G[从 Endpoint 移除] C --> H{Liveness Probe} H -- 失败 --> I[重启容器] ``` > **关键点**:启动探针通过前,存活/就绪探针**不会执行**,避免误杀慢启动容器[^4][^5]。 --- ### 五、常见问题排查 - **Q:Pod 反复重启?** → 检查 `livenessProbe` 配置是否过于敏感(如检测路径响应慢) → 配合 `kubectl describe pod` 查看 `Events` 中的探针失败记录 - **Q:Service 流量不到达 Pod?** → 确认 `readinessProbe` 是否返回成功(失败时 Pod 处于 `NotReady` 状态) - **Q:探针检测超时?** → 调整 `timeoutSeconds`(默认1秒)或优化应用响应速度 通过合理配置探针Kubernetes 实现了**零停机滚动更新**、**故障自愈**和**流量精细调度**,成为生产环境的核心保障机制[^1][^2][^5]。 --- ####
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值