问题场景
当涉及到分布式架构应用,处理故障节点是最头疼的一件事。如何让前端用户感觉不出的情况下,将把故障节点从分布式架构中摘除是关键。在Kubernetes出现之前,大多数应用运行在虚拟机或者物理机上,还需要手动配置运行监视应用的进程,如果应用程序崩溃,监控发出报警后,需要从架构中把出问题的节点摘除,并重新做负载,这个过程需要很长时间,还会导致前台页面访问有间歇性的异常。而如果架构中只有一台或两台机器来运行应用程序,那么网页直接无法访问是不可接受的。
随着像Kubernetes这样的系统的出现,完全可以解决,通过Kubernetes事件循环来确保容器和节点等应用资源是否健康。这意味着不再需要手动运行监视进程。而资源未通过健康检查,Kubernetes会自动启动一个替代品。
Kubernetes可以终止一个完全健康的容器有很多原因。如果您使用滚动更新更新部署,Kubernetes会在启动新pod时慢慢终止旧pod。如果drain一个节点,Kubernetes将终止该节点上的所有pod。如果节点资源不足,Kubernetes将终止pod以释放这些资源
不管是滚动更新、还是pod不健康,pod控制器资源都会保证,按照事先设定必须启动几份pod,如果pod异常都会重启pod。而停止pod过程中,应用程序需要处理SIGTERM消息并在收到它时开始关闭。pod控制台在同时拉取新的pod。期间新的pod启动并能使用需要60s,旧pod在30s后结束,并不在提供服务,期间这30s业务就会宕机,如何解决:延迟旧pod的宕机速度,让旧pod在60s关闭,新的pod在60s启动,让服务优雅地关闭并启动
POD重启过程
一旦Kubernetes决定终止您的Pod,就会发生一系列事件。
让我们看看Kubernetes终止生命周期的每一步。
1 - K8S 启动新POD。
此时,新的POD等待启动
2 - K8S等待新POD进入Ready(Running) 状态。
此时,pod状态为Running。
3 - K8S创建Endpoint。
此时,k8s创建endpoint,将新服务纳入负载均衡。
4 - Pod设置为”Terminating”状态,并从所有服务的Endpoints列表中删除。
此时,Pod停止获得新的流量。但在Pod中运行的容器不会受到影响。
5 - preStop Hook被执行
preStop Hook是一个发送到Pod中的容器特殊命令或Http请求。
如果您的应用程序在接收SIGTERM时没有正常关闭,您可以使用preStop Hook来触发正常关闭。
接收SIGTERM时大多数程序都会正常关闭,但如果您使用的是第三方代码或管理的系统无法控制,则preStop Hook是在不修改应用程序的情况下触发正常关闭的好方法。
6 - SIGTERM信号被发送到Pod
此时,Kubernetes将向pod中的容器发送SIGTERM信号。这个信号让容器知道它们很快就会关闭。
您的代码应该监听此事件并在此时开始干净利落关闭。这可能包括停止任何长期连接(如数据库连接或WebSocket流),保存当前状态或其它类似的事情。
即使您使用preStop Hook,如果您发送SIGTERM信号,测试应用程序会发生什么情况也很重要,以确保您对生产环境并不感到惊讶!
7 - Kubernetes等待优雅的终止
此时,Kubernetes等待指定的时间称为优雅终止宽限期。默认情况下,这是30秒。值得注意的是,这与preStop Hook和SIGTERM信号并行发生。Kubernetes不会等待preStop Hook完成。
如果你的应用程序完成关闭并在terminationGracePeriod完成之前退出,Kubernetes会立即进入下一步。
如果您的Pod通常需要超过30秒才能关闭,请确保增加优雅终止宽限期。您可以通过在Pod YAML中设置terminationGracePeriodSeconds选项来实现。
例如,要将其更改为60秒:
apiVersion: v1
kind: Pod
metadata:
name: nginx
namespace: default
spec:
containers:
- name: nginx
image: nginx
terminationGracePeriodSeconds: 30
8 - SIGKILL信号被发送到Pod,并删除Pod
如果容器在优雅终止宽限期后仍在运行,则会发送SIGKILL信号并强制删除。与此同时,所有的Kubernetes对象也会被清除。
结论:
Kubernetes可以出于各种原因终止pod,并确保您的应用程序优雅地处理这些终止,这是创建稳定系统和提供出色用户体验的核心。
译者注:
kubernetes文档指出,有些步骤是同时执行的。因此有可能会导致该Pod仍然列在服务的Endpoints中并仍然接收流量,而它已经收到SIGTERM并且已经停止,因此负载均衡器上可能会有一些Http 504。目前解决这个问题可以使用preStop Hook 在容器收到SIGTERM时sleep一段时间,以确终止期间的流量可以正确处理。设置方式:
apiVersion: v1
kind: Pod
metadata:
name: nginx
namespace: default
spec:
containers:
- name: nginx
image: nginx
lifecycle:
preStop:
exec:
command:
\- sleep
\- 30
terminationGracePeriodSeconds: 60
特别说明:
preStop Hook并不会影响SIGTERM的处理,因此有可能preStopHook还没有执行完就收到SIGKILL导致容器强制退出。因此如果preStop Hook设置了n秒,需要设置terminationGracePeriodSeconds为terminationGracePeriodSeconds+n秒。
Kubernetes提供了优雅的Pod终止机制,确保在更新、故障或资源调整时,服务能平滑过渡。通过设置terminationGracePeriodSeconds和preStopHook,可以控制Pod关闭和启动的时间,避免业务中断。当Pod被终止时,会先发送SIGTERM,然后等待预设的宽限期,若容器未在宽限期内关闭,再发送SIGKILL。适当配置这些参数可以优化服务的可用性。
1690

被折叠的 条评论
为什么被折叠?



