Kubernetes（K8s）探针

最新推荐文章于 2025-06-14 10:00:28 发布

DevDiary

最新推荐文章于 2025-06-14 10:00:28 发布

阅读量1.5k

点赞数 11

CC 4.0 BY-SA版权

文章标签： kubernetes 容器云原生

本文链接：https://blog.youkuaiyun.com/www_tlj/article/details/136049605

文章详细介绍了Kubernetes中的三种探针类型（存活探针、就绪探针和启动探针），以及它们如何在运行时监控应用程序健康状态。还提供了配置示例和一个自动检测容器健康的shell脚本，强调了合理配置探针以提升应用稳定性和可靠性的关键性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Kubernetes（K8s）提供了几种类型的探针（Probes），用于运行时检查容器中运行的应用程序的健康状态。这些探针使得Kubernetes能够更加智能地管理容器，例如自动重启失败的容器、不将流量发送到未准备好接收流量的容器等。探针可以配置为执行三种类型的检查：HTTP GET请求、TCP Socket检查、以及执行容器内的命令。

探针类型

Kubernetes定义了三种主要类型的探针：

存活探针（Liveness Probe）:
- 目的：确保应用程序正在运行。如果存活探针失败，表示应用不再活动，Kubernetes会根据策略重启该容器。
- 应用场景：当应用因死锁或其他原因卡住时，自动重启可能恢复应用。
就绪探针（Readiness Probe）:
- 目的：检查容器是否准备好接受流量。如果就绪探针失败，表示应用虽然正在运行，但不应接收请求，Kubernetes会停止向该容器发送请求，直到它准备就绪。
- 应用场景：用于控制那些需要加载大量数据或配置文件的应用，直到应用准备好接受流量前，不将请求路由到该容器。
启动探针（Startup Probe）:
- 目的：检查容器应用程序是否已启动。如果启动探针失败，Kubernetes会重启容器。一旦启动探针成功，就绪和存活探针将接管后续的检查。
- 应用场景：对于启动时间较长的应用，确保不会因为启动慢而被误判为失败状态。

探针检查类型

每种探针都可以配置为执行以下类型的检查之一：

HTTP GET：对指定的端口和路径执行HTTP GET请求。如果返回的状态码在成功的范围内（默认为200-399），则认为检查成功。
TCP Socket：尝试建立TCP连接到容器的指定端口。如果连接成功建立，则认为检查成功。
Exec：在容器内执行指定的命令。如果命令退出状态码为0，则认为检查成功。

配置示例

下面是一个配置存活探针和就绪探针的YAML示例：

apiVersion: v1
kind: Pod
metadata:
  name: mypod
spec:
  containers:
  - name: mycontainer
    image: myimage
    livenessProbe:
      httpGet:
        path: /healthz
        port: 8080
      initialDelaySeconds: 15
      timeoutSeconds: 2
      periodSeconds: 5
      failureThreshold: 3
    readinessProbe:
      exec:
        command:
        - cat
        - /tmp/ready
      initialDelaySeconds: 5
      periodSeconds: 5

在这个例子中，存活探针通过对/healthz路径执行HTTP GET请求来检查应用的存活状态，而就绪探针通过执行cat /tmp/ready命令来检查容器是否准备好接受流量。

通过合理配置这些探针，可以提高应用的稳定性和可靠性，确保Kubernetes集群能够更加智能地管理容器。

一个自动检测容器健康状况的shell脚本例子

下面实现一个基于启动探针和存活探针的健康检测脚本，同时包括读取配置文件获取IP和端口信息，以及在检测到容器不健康时重启容器的逻辑

#!/bin/bash

# 定义变量
namespace="your-namespace"
config_path="/path/to/your/config"
pod_label_selector="app=your-app-label"

# 读取配置文件获取IP和端口
ip=$(grep 'ip' $config_path | cut -d'=' -f2)
port=$(grep 'port' $config_path | cut -d'=' -f2)

# 获取Pod名字列表
pod_names=$(kubectl get pods -n $namespace -l $pod_label_selector -o=jsonpath='{.items[*].metadata.name}')

for pod_name in $pod_names; do
    echo "Checking health for Pod: $pod_name"

    # 使用kubectl exec执行健康检查命令
    health_check_cmd="curl -s -o /dev/null -w '%{http_code}' http://$ip:$port/health"
    result=$(kubectl exec $pod_name -n $namespace -- bash -c "$health_check_cmd")

    # 检查健康状态
    if [ "$result" != "200" ]; then
        echo "Pod $pod_name is unhealthy. Restarting..."
        kubectl delete pod $pod_name -n $namespace
        # 注意：重启Pod应谨慎操作，确保符合你的应用逻辑
        # Kubernetes的部署（Deployment）会自动重新创建Pod以保持所需的副本数量
    else
        echo "Pod $pod_name is healthy."
    fi
done

说明

配置读取：脚本首先从指定的配置文件路径读取应用的IP和端口信息。这里假设配置文件中有ip=...和port=...这样的行。
Pod检索：通过kubectl get pods命令和标签选择器获取目标应用Pod的名称列表。
健康检查：对每个Pod执行健康检查命令。这个示例使用curl命令检查应用的/health端点。
容器重启：如果检测到容器不健康（即HTTP状态码不是200），脚本会使用kubectl delete pod命令删除该Pod。在Deployment等控制器管理下的Pod会自动被重新创建，从而达到重启的目的。

注意事项

权限：执行这个脚本需要对Kubernetes集群有足够的权限，包括读取Pod信息和删除Pod的能力。
安全性：在生产环境中，直接删除Pod以触发重启可能不是最佳实践，特别是对于那些没有正确配置探针的应用。最好是在应用的Deployment配置中正确设置启动探针和存活探针。
配置文件：确保配置文件的路径和格式与脚本中的逻辑相匹配。如果使用不同的配置管理方式（如ConfigMap或环境变量），需要相应调整脚本。
错误处理：在实际使用中，脚本应包含更详细的错误处理逻辑，比如检查kubectl命令的执行结果，处理未找到Pod的情况等。

这个脚本提供了一个基础的框架，可以根据实际需求进行调整和扩展。