Health Check
强大的自愈能力是 Kubernetes 这类容器编排引擎的一个重要特性。自愈的默认实现方式是自动重启发生故障的容器。除此之外,用户还可以利用 Liveness 和 Readiness 探测机制设置更精细的健康检查,进而实现如下需求:
1、零停机部署。
2、避免部署无效的镜像。
3、更加安全的滚动升级
下面通过实践学习 Kubernetes 的 Health Check 功能。
默认的健康检查
我们首先学习 Kubernetes 默认的健康检查机制:
每个容器启动时都会执行一个进程,此进程由 Dockerfile 的 CMD 或 ENTRYPOINT 指定。如果进程退出时返回码非零,则认为容器发生故障,Kubernetes 就会根据 restartPolicy 重启容器
下面我们模拟一个容器发生故障的场景,Pod 配置文件如下:
[root@master pod]# vim healthcheck.yml
apiVersion: v1
kind: Pod
metadata:
labels:
test: healthcheck
name: healthcheck
spec:
restartPolicy: OnFailure
containers:
- name: healthcheck
image: busybox
args:
- /bin/sh
- -c
- sleep 10; exit 1
Pod 的 restartPolicy 设置为 OnFailure,默认为 Always。
sleep 10; exit 1 模拟容器启动 10 秒后发生故障。
执行 kubectl apply 创建 Pod,命名为 healthcheck。
[root@master pod]# kubectl apply -f healthcheck.yml
pod/healthcheck created
过几分钟查看 Pod 的状态:
[root@master pod]# kubectl get pod healthcheck
NAME READY STATUS RESTARTS AGE
healthcheck 1/1 Running 3 50s
可看到容器当前已经重启了 3 次。
在上面的例子中,容器进程返回值非零,Kubernetes 则认为容器发生故障,需要重启。但有不少情况是发生了故障,但进程并不会退出。
比如访问 Web 服务器时显示 500 内部错误,可能是系统超载,也可能是资源死锁,此时 httpd 进程并没有异常退出,在这种情况下重启容器可能是最直接最有效的解决方案,利用 Health Check 机制Liveness 探测来处理这类场景
Liveness 探测
Liveness 探测让用户可以自定义判断容器是否健康的条件。如果探测失败,Kubernetes 就会重启容器。
还是举例说明,创建如下 Pod:
[root@master pod]# vim liveness.yml
apiVersion: v1
kind: Pod
metadata:
labels:
test: liveness
name: liveness
spec:
restartPolicy: OnFailure
containers:
- name: liveness
image: busybox
args:
- /bin/sh
- -c
- touch /tmp/healthy; sleep 30; rm -rf /tmp/healthy; sleep 600
livenessProbe:
exec:
command:
- cat
- /tmp/healthy
initialDelaySeconds: 10
periodSeconds: 5
启动进程首先创建文件 /tmp/healthy,30 秒后删除,在我们的设定中,如果 /tmp/healthy 文件存在,则认为容器处于正常状态,反正则发生故障。
livenessProbe 部分定义如何执行 Liveness 探测:
1、探测的方法是:通过 cat 命令检查 /tmp/healthy 文件是否存在。如果命令执行成功,返回值为零,Kubernetes 则认为本次 Liveness 探测成功;如果命令返回值非零,本次 Liveness 探测失败。
2、initialDelaySeconds: 10 指定容器启动 10 之后开始执行 Liveness 探测,我们一般会根据应用启动的准备时间来设置。比如某个应用正常启动要花 30 秒,那么 initialDelaySeconds 的值就应该大于 30。
3、periodSeconds: 5 指定每 5 秒执行一次 Liveness 探测。Kubernetes 如果连续执行 3 次 Liveness 探测均失败,则会杀掉并重启容器。
下面创建 Pod liveness:
[root@master pod]# kubectl apply -f liveness.yml
pod/liveness created
从配置文件可知,最开始的 30 秒,/tmp/healthy
存在,cat
命令返回 0,Liveness 探测成功,这段时间 kubectl describe pod liveness
的 Events
部分会显示正常的日志。
[root@master pod]# kubectl describe pod liveness
Name: liveness
Namespace: default
Priority: 0
Node: node2/10.70.36.252
Start Time: Wed, 23 Dec 2020 10:25:37 +0800
Labels: test=liveness
Annotations: <none>
Status: Running
IP: 10.244.2.235
IPs:
IP: 10.244.2.235
Containers:
liveness:
Container ID: docker://8aa3028afef003178d854bd2a3aa4cec931ee32ff08def25e7565d99db9054fc
Image: busybox
Image ID: docker-pullable://busybox@sha256:bde48e1751173b709090c2539fdf12d6ba64e88ec7a4301591227ce925f3c678
Port: <none>
Host Port: <none>
Args:
/bin/sh
-c
touch /tmp/healthy; sleep 30; rm -rf /tmp/healthy; sleep 600
State: Running
Started: Wed, 23 Dec 2020 10:25:41 +0800
Ready: True
Restart Count: 0
Liveness: exec [cat /tmp/healthy] delay=10s timeout=1s period=5s #success=1 #failure=3
Environment: <none>
Mounts:
/var/run/secrets/kubernetes.io/s