Kubernetes 节点 DNS 解析异常问题排查与解决方案

因为 NodeLocal DNSCache 未加载更新后的节点 resolv.conf 导致 Pod 无法解析外部域名


一、问题现象

在 Kubernetes 集群中,部署的应用 Pod 在调度到 worker4 节点时可以正常访问外部服务 qyapi.weixin.qq.com,但当调度到 worker3 节点时,Java 应用抛出如下异常:

Caused by: java.net.UnknownHostException: qyapi.weixin.qq.com

经初步排查:

  • worker3 节点本身可通过 ping qyapi.weixin.qq.com 正常解析并连通;
  • worker4 节点无此问题;
  • 两节点操作系统及网络环境基本一致。

二、根因分析

1. 集群启用了 NodeLocal DNSCache

通过检查发现,集群部署了 NodeLocal DNSCache(DaemonSet,标签 k8s-app=nodelocaldns),用于优化 Pod 的 DNS 查询性能。其工作原理如下:

  • 每个节点运行一个本地 CoreDNS 实例,监听 IP(通常为 169.254.20.10);
  • Pod 的 /etc/resolv.confnameserver 被设置为此本地地址;
  • NodeLocal DNSCache 将集群内部域名请求转发给 CoreDNS,外部域名请求则转发给节点 /etc/resolv.conf 中配置的上游 DNS 服务器

2. NodeLocal DNSCache 仅在启动时读取 /etc/resolv.conf

  • NodeLocal DNSCache Pod 在启动时读取所在节点的 /etc/resolv.conf,获取上游 DNS 配置;
  • 不会动态监听或重新加载该文件的后续变更
  • 若节点的 DNS 配置发生变化(如修复错误配置),必须重启 NodeLocal DNSCache Pod 才能生效。

3. 问题发生过程

  1. worker3 节点初始的 /etc/resolv.conf 配置有误(如 nameserver 不可达);
  2. NodeLocal DNSCache Pod 启动时加载了错误的上游 DNS 配置;
  3. 即使后续手动修正了 worker3 的 /etc/resolv.conf,NodeLocal DNSCache 仍使用旧配置;
  4. 导致调度到 worker3 的 Pod 无法解析外部域名,而节点自身(直接使用 /etc/resolv.conf)可正常解析。

三、解决方案

✅ 步骤 1:确保节点 DNS 配置正确

将 worker3 的 /etc/resolv.conf 修改为与正常节点(如 worker4)一致,例如:

// 注意这里,修改为与正常节点(如 worker4)一致
nameserver 114.114.114.114

💡 建议通过系统级网络管理工具(如 NetworkManager、systemd-resolved)进行持久化配置,避免被 DHCP 或云平台覆盖。

✅ 步骤 2:重启 NodeLocal DNSCache Pod

强制重建 worker3 上的 NodeLocal DNSCache 实例,使其加载最新的 /etc/resolv.conf

kubectl delete pods -n kube-system -l k8s-app=nodelocaldns

Kubernetes DaemonSet 控制器会自动在所有节点(包括 worker3)上创建新的 Pod。

✅ 步骤 3:验证修复结果

在 worker3 上部署测试 Pod,验证外部域名解析:

kubectl run debug --image=busybox:1.28 --rm -it --restart=Never \
  --overrides='{"spec":{"nodeSelector":{"kubernetes.io/hostname":"worker3"}}}' \
  -- nslookup qyapi.weixin.qq.com

预期输出应包含有效的 IP 地址,无超时或错误。


四、经验总结与建议

项目说明
关键认知NodeLocal DNSCache 不会动态重载 /etc/resolv.conf,修改后必须重启 Pod
运维规范修改节点 DNS 配置后,应同步执行 kubectl delete pod -n kube-system -l k8s-app=nodelocaldns
配置持久化避免直接编辑 /etc/resolv.conf,推荐使用系统网络管理工具或云平台配置
监控建议可通过 Prometheus + CoreDNS 指标监控 DNS 解析失败率,提前发现类似问题

五、附录:相关组件说明

NodeLocal DNSCache 架构简图

Pod (nameserver: 169.254.20.10)
        ↓
NodeLocal DNSCache (本地 CoreDNS, 运行于每个节点)
        ↓
上游 DNS(来自节点 /etc/resolv.conf)
        ↓
公网/内网 DNS 服务器

查看 NodeLocal DNSCache 配置

# 查看 ConfigMap
kubectl get cm nodelocaldns -n kube-system -o yaml

# 查看 Pod 状态
kubectl get pods -n kube-system -l k8s-app=nodelocaldns -o wide

记录人:壹米饭
记录时间:2025年12月5日
适用环境:启用 NodeLocal DNSCache 的 Kubernetes 集群(v1.18+)

📌 一句话总结:改了节点 DNS 配置?别忘了重启 nodelocaldns!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值