背景
本文基于Flink 1.13.x
Flink on K8S
在基于原生K8S做JobManager HA服务的前提下,随着部署在K8S的flink任务越来越多,JobManager节点挂的频率越来越高,这严重影响了整个Flink作业的运行。
分析
对于目前的flink的架构,画出如下的图,该图也是参考了官方

其实最主要的原因是flink集群对etcd的访问过于频繁(etcd是K8S的最为关键的组件),导致了整个K8S集群的不稳定。
针对Flink1.13.x版本在K8S上遇到的JobManager高频率故障问题进行深入分析。主要原因是Flink集群对etcd访问过于频繁,导致K8S集群不稳定。
本文基于Flink 1.13.x
Flink on K8S
在基于原生K8S做JobManager HA服务的前提下,随着部署在K8S的flink任务越来越多,JobManager节点挂的频率越来越高,这严重影响了整个Flink作业的运行。
对于目前的flink的架构,画出如下的图,该图也是参考了官方

其实最主要的原因是flink集群对etcd的访问过于频繁(etcd是K8S的最为关键的组件),导致了整个K8S集群的不稳定。
842
4664

被折叠的 条评论
为什么被折叠?