Azure AKS集群创建过程中VMSS节点池卡在创建状态问题分析

Azure AKS集群创建过程中VMSS节点池卡在创建状态问题分析

AKS Azure Kubernetes Service AKS 项目地址: https://gitcode.com/gh_mirrors/ak/AKS

问题现象

在创建Azure Kubernetes Service(AKS)集群时,用户遇到了默认节点池无法成功部署的问题。集群状态持续显示为"Creating",对应的虚拟机规模集(VMSS)也处于相同状态。通过检查Azure活动日志,发现VMSS创建操作失败,错误代码为ResourceOperationFailure。

错误详情分析

从日志中可以观察到以下关键错误信息:

  1. 虚拟机扩展'vmssCSE'(CustomScript类型)执行失败,退出状态码为41
  2. 错误信息中包含CNI(容器网络接口)相关组件日志收集记录
  3. 系统尝试上传诊断日志包但出现日期格式无效的错误

根本原因

经过深入排查,发现该问题主要由以下两个因素导致:

  1. 网络连接问题:节点虚拟机无法访问Azure容器服务镜像仓库(acs-mirror.azureedge.net),导致CNI插件下载失败
  2. 证书信任问题:在企业环境中,当使用自定义CA证书时,节点无法验证Azure服务的TLS证书

解决方案

网络连接配置

  1. 确保AKS节点所在VNET能够访问以下关键端点:

    • acs-mirror.azureedge.net (容器镜像仓库)
    • mcr.microsoft.com (Microsoft容器注册表)
  2. 如果企业使用防火墙或代理,需要将这些域名加入白名单

证书配置

对于使用自定义CA证书的环境:

  1. 在创建AKS集群时,通过custom_ca_trust_certificates_base64参数添加企业CA证书
  2. 确保证书链完整,包括所有中间CA证书

排查建议

当遇到类似问题时,可以采取以下排查步骤:

  1. 通过SSH连接到故障节点(创建过程中会自动生成临时节点)
  2. 检查/var/log目录下的相关日志文件:
    • /var/log/azure/aks/cluster-provision.log
    • /var/log/azure/aks/cluster-provision-cse-output.log
    • /var/log/cloud-init.log
  3. 验证网络连接性:
    • 测试到关键端点的HTTP/HTTPS连接
    • 检查DNS解析是否正常
  4. 检查证书信任链是否完整

最佳实践

  1. 在规划AKS部署时,提前准备网络访问需求清单
  2. 在企业环境中,预先配置好所有必要的防火墙规则和证书信任
  3. 定期检查Azure文档中更新的网络需求,因为服务端点可能会变化
  4. 考虑使用Azure Private Link或服务端点来安全地访问Azure服务

通过以上措施,可以有效避免AKS集群创建过程中因网络或证书问题导致的节点池部署失败情况。

AKS Azure Kubernetes Service AKS 项目地址: https://gitcode.com/gh_mirrors/ak/AKS

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

骆鸣峥Kerri

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值