集群网络故障,两个node下pod的ip无法访问案例分享
正常情况下pod的ip在整个k8s集群内部都是互通,如下图:
故障现象
请求service偶发性超时,
问题分析:
查看service是否有报错:
可以看到这个service 对应的endpointslices是nginx-4lh4c,这个后端轮询访问,有一个概率报错。
从下图中可以看到,service 后端转发了4个pod。
从service中的Selector参数获取到标签,查看一下pod的运行状态:
解读:pod运行正常,删除pod后,故障依旧。pod跑在两个node上。在其他node上curl pod IP。 发现 172.16.106.139 这个node下的pod无法通信