因为 NodeLocal DNSCache 未加载更新后的节点 resolv.conf 导致 Pod 无法解析外部域名
一、问题现象
在 Kubernetes 集群中,部署的应用 Pod 在调度到 worker4 节点时可以正常访问外部服务 qyapi.weixin.qq.com,但当调度到 worker3 节点时,Java 应用抛出如下异常:
Caused by: java.net.UnknownHostException: qyapi.weixin.qq.com
经初步排查:
- worker3 节点本身可通过
ping qyapi.weixin.qq.com正常解析并连通; - worker4 节点无此问题;
- 两节点操作系统及网络环境基本一致。
二、根因分析
1. 集群启用了 NodeLocal DNSCache
通过检查发现,集群部署了 NodeLocal DNSCache(DaemonSet,标签 k8s-app=nodelocaldns),用于优化 Pod 的 DNS 查询性能。其工作原理如下:
- 每个节点运行一个本地 CoreDNS 实例,监听 IP(通常为
169.254.20.10); - Pod 的
/etc/resolv.conf中nameserver被设置为此本地地址; - NodeLocal DNSCache 将集群内部域名请求转发给 CoreDNS,外部域名请求则转发给节点
/etc/resolv.conf中配置的上游 DNS 服务器。
2. NodeLocal DNSCache 仅在启动时读取 /etc/resolv.conf
- NodeLocal DNSCache Pod 在启动时读取所在节点的
/etc/resolv.conf,获取上游 DNS 配置; - 不会动态监听或重新加载该文件的后续变更;
- 若节点的 DNS 配置发生变化(如修复错误配置),必须重启 NodeLocal DNSCache Pod 才能生效。
3. 问题发生过程
- worker3 节点初始的
/etc/resolv.conf配置有误(如 nameserver 不可达); - NodeLocal DNSCache Pod 启动时加载了错误的上游 DNS 配置;
- 即使后续手动修正了 worker3 的
/etc/resolv.conf,NodeLocal DNSCache 仍使用旧配置; - 导致调度到 worker3 的 Pod 无法解析外部域名,而节点自身(直接使用
/etc/resolv.conf)可正常解析。
三、解决方案
✅ 步骤 1:确保节点 DNS 配置正确
将 worker3 的 /etc/resolv.conf 修改为与正常节点(如 worker4)一致,例如:
// 注意这里,修改为与正常节点(如 worker4)一致
nameserver 114.114.114.114
💡 建议通过系统级网络管理工具(如 NetworkManager、systemd-resolved)进行持久化配置,避免被 DHCP 或云平台覆盖。
✅ 步骤 2:重启 NodeLocal DNSCache Pod
强制重建 worker3 上的 NodeLocal DNSCache 实例,使其加载最新的 /etc/resolv.conf:
kubectl delete pods -n kube-system -l k8s-app=nodelocaldns
Kubernetes DaemonSet 控制器会自动在所有节点(包括 worker3)上创建新的 Pod。
✅ 步骤 3:验证修复结果
在 worker3 上部署测试 Pod,验证外部域名解析:
kubectl run debug --image=busybox:1.28 --rm -it --restart=Never \
--overrides='{"spec":{"nodeSelector":{"kubernetes.io/hostname":"worker3"}}}' \
-- nslookup qyapi.weixin.qq.com
预期输出应包含有效的 IP 地址,无超时或错误。
四、经验总结与建议
| 项目 | 说明 |
|---|---|
| 关键认知 | NodeLocal DNSCache 不会动态重载 /etc/resolv.conf,修改后必须重启 Pod |
| 运维规范 | 修改节点 DNS 配置后,应同步执行 kubectl delete pod -n kube-system -l k8s-app=nodelocaldns |
| 配置持久化 | 避免直接编辑 /etc/resolv.conf,推荐使用系统网络管理工具或云平台配置 |
| 监控建议 | 可通过 Prometheus + CoreDNS 指标监控 DNS 解析失败率,提前发现类似问题 |
五、附录:相关组件说明
NodeLocal DNSCache 架构简图
Pod (nameserver: 169.254.20.10)
↓
NodeLocal DNSCache (本地 CoreDNS, 运行于每个节点)
↓
上游 DNS(来自节点 /etc/resolv.conf)
↓
公网/内网 DNS 服务器
查看 NodeLocal DNSCache 配置
# 查看 ConfigMap
kubectl get cm nodelocaldns -n kube-system -o yaml
# 查看 Pod 状态
kubectl get pods -n kube-system -l k8s-app=nodelocaldns -o wide
记录人:壹米饭
记录时间:2025年12月5日
适用环境:启用 NodeLocal DNSCache 的 Kubernetes 集群(v1.18+)
📌 一句话总结:改了节点 DNS 配置?别忘了重启 nodelocaldns!
123

被折叠的 条评论
为什么被折叠?



