Kubernetes(k8s)-高可用集群部署v1.32.2(生产可用)

作者介绍:简历上没有一个精通的运维工程师。请点击上方的蓝色《运维小路》关注我,下面的思维导图也是预计更新的内容和当前进度(不定时更新)。

图片

我们上一章介绍了Docker基本情况,目前在规模较大的容器集群基本都是Kubernetes,但是Kubernetes涉及的东西和概念确实是太多了,而且随着版本迭代功能在还增加,笔者有些功能也确实没用过,所以只能按照我自己的理解来讲解。

前面我们在讲解各种资源的时候部署过很多集群,但是都是单机版形式的,正在生产集群是需要高可用的,所以以下就来演示一个生产高可用集群当前最新版本Kubernetes v1.32.2,为了后续部分演示所以这里启用了3个Node节点,如果只验证高可用实际上不用Node也可以。

1.架构

IP

角色

OS

192.168.31.100

Master

Rocky 9.5

192.168.31.101

Master

Rocky 9.5

192.168.31.102

Master

Rocky 9.5

192.168.31.111

Node

Rocky 9.5

192.16831.112

Node

Rocky 9.5

192.168.31.113

Node

Rocky 9.5

192.168.31.105

VIP

/

这里我们使用了一个VIP来作为统一入口,避免单点风险,这个VIP实现功能要求的所有IP二层互通。

2.环境初始化

包括,修改主机名,hosts,关闭selinux,防火墙,时间同步,等基础配置参考我前面的部署文档Kubernetes(k8s)-安装k8s(docker版)

3.安装Containerd

注:Kubernetes最后一个支持的Docker的版本是v1.23.12,后面默认就是Containerd。

wget https://mirrors.aliyun.com/docker-ce/linux/centos/docker-ce.repo -O /etc/yum.repos.d/docker-ce.repo
yum install -y containerd.io
#生成全量的配置文件,默认里面几乎没什么配置
containerd config default > /etc/containerd/config.toml

#修改镜像地址和cgroup配置
vi /etc/containerd/config.toml
sandbox_image = "registry.aliyuncs.com/google_containers/pause:3.10"
SystemdCgroup = true

#启动containerd
systemctl start containerd
systemctl enable containerd

4.安装kubernetes基础软件

#从1.28开始,这里要写具体的版本,是和以前不一样的地方
vi /etc/yum.repos.d/kubernetes.repo 

[kubernetes]
name=Kubernetes
baseurl=https://mirrors.aliyun.com/kubernetes-new/core/stable/v1.32/rpm/
enabled=1
gpgcheck=1
gpgkey=https://mirrors.aliyun.com/kubernetes-new/core/stable/v1.32/rpm/repodata/repomd.xml.key

​​​​​

#安装必要的软件
yum -y install kubelet kubeadm kubectl
systemctl start kubelet && systemctl enable kubelet

​​​​​​​

5.配置内核参数

#调整内核参数
echo "net.bridge.bridge-nf-call-ip6tables=1" >> /etc/sysctl.d/kubernetes.conf
echo "net.bridge.bridge-nf-call-iptables=1" >> /etc/sysctl.d/kubernetes.conf
echo "net.ipv6.conf.all.disable_ipv6=1" >> /etc/sysctl.d/kubernetes.conf
echo "net.ipv4.ip_forward=1" >> /etc/sysctl.d/kubernetes.conf
sysctl --system
#添加内核模块自启动,Dcoekr版本不需要,但是Containerd需要
vi/etc/modules-load.d/k8s.conf 
#添加下面的模块
br_netfilter

​​​​​​​

​​​​​​​

以上配置完成以后,所有机器都重启一次,然后检查内核模块是否正常加载,确保所有准备工作都是符合预期的。

6.配置VIP

这里我们选择100和101这2台服务器来承担vip的责任,因为3节点的集群只允许挂1台,挂2台集群是不可用的。本小节操作只在100和101服务器执行。

由于我们还没讲解这个keepalived软件,大家可以照着执行即可。

yum -y install keepalived
    #100服务配置vi /etc/keepalived/keepalived.conf
    ! Configuration File for keepalived
    global_defs {
        router_id LVS_DEVEL
    }
    vrrp_instance VI_1 {
        state MASTER                    # 设置为主节点
        interface ens3                  # 网络接口,根据实际情况修改
        virtual_router_id 51            # VRRP 路由ID,主备节点必须相同
        priority 100                    # 优先级,主节点必须高于备份节点
        advert_int 1                    # VRRP通告间隔,单位秒
        authentication {
            auth_type PASS              # 认证类型
            auth_pass 1111              # 认证密码,主备节点必须相同
        }
        virtual_ipaddress {
            192.168.31.105              # 虚拟IP地址,可以根据实际情况修改
        }
    }
      #101服务配置vi /etc/keepalived/keepalived.conf
      ! Configuration File for keepalived
      
      global_defs {
          router_id LVS_DEVEL
      }
      
      vrrp_instance VI_1 {
          state BACKUP                    # 设置为备份节点
          interface ens3                  # 确保使用正确的网络接口名称
          virtual_router_id 51            # VRRP 路由ID,主备节点必须相同
          priority 50                     # 优先级,备份节点必须低于主节点
          advert_int 1                    # VRRP通告间隔,单位秒
      
          authentication {
              auth_type PASS              # 认证类型
              auth_pass 1111              # 认证密码,主备节点必须相同
          }
      
          virtual_ipaddress {
              192.168.31.105              # 虚拟IP地址,与主节点相同
          }
      }
        #启动服务
        systemctl start keepalived
        systemctl enable keepalived

        图片

        7.准备集群配置文件

        因为这里需要把证书加到100年,所以只能通过配置文件形式,命令行方式不能直接实现,根据资料这个支持是从v1.31开始支持。

        这里主要指定了一些临时token,并指定了容器运行时,和证书路径及VIP信息,etcd路径,和镜像下载地址,版本,默认域名,Pod和Service的IP地址段,证书包含的IP地址(也可以用域名替代,避免后面出现IP更换的问题)CA和签发证书的时间。​​​​​​​

        #vi kubeadm-config.yaml 
        
        apiVersion: kubeadm.k8s.io/v1beta4
        bootstrapTokens:
        - groups:
          - system:bootstrappers:kubeadm:default-node-token
          token: ufw2x5.c255p8a0437pxp0x
          ttl: 24h0m0s
          usages:
          - signing
          - authentication
        kind: InitConfiguration
        nodeRegistration:
          criSocket: unix:///var/run/containerd/containerd.sock
          imagePullPolicy: IfNotPresent
          imagePullSerial: true
        ---
        apiVersion: kubeadm.k8s.io/v1beta4
        certificatesDir: /etc/kubernetes/pki
        clusterName: kubernetes
        controlPlaneEndpoint: 192.168.31.105:6443
        controllerManager: {}
        dns: {}
        etcd:
          local:
            dataDir: /var/lib/etcd
        imageRepository: registry.aliyuncs.com/google_containers
        kind: ClusterConfiguration
        kubernetesVersion: v1.32.2
        networking:
          dnsDomain: cluster.local
          podSubnet: 10.20.0.0/16
          serviceSubnet: 10.10.0.0/16
        proxy: {}
        scheduler: {}
        apiServer:
          certSANs:
          - 192.168.31.105
          - 192.168.31.100
          - 192.168.31.101
          - 192.168.31.102
          - 127.0.0.1
        caCertificateValidityPeriod: 876000h0m0s
        certificateValidityPeriod: 876000h0m0s

        8.安装集群

        kubeadm init --config=kubeadm-config.yaml --upload-certs

        图片

        图片

            #配置kubectl,可以一台服务器,也可以所有master
            mkdir -p $HOME/.kube
            cp -i /etc/kubernetes/admin.conf $HOME/.kube/config

          9.添加网络插件​​​​​​​

          #由于我配置修改了Pod的ip地址,所以需要下下载,然后修改
          wget https://raw.githubusercontent.com/coreos/flannel/master/Documentation/kube-flannel.yml
          sed -i 's/10.244/10.20/g' kube-flannel.yml
          kubectl apply -f kube-flannel.yml

          图片

          10.检查集群状态

          图片

            #node节点链接使用vip
            cat /etc/kubernetes/kubelet.conf  |grep server
            server: https://192.168.31.105:6443

            11.检查高可用&证书

            这里我们关闭了master01节点,这个时候显示master01已经是NotReady,VIP也飘逸到了master02节点。并且集群也可以正常使用。

            图片

              #无论是CA证书,还是CA签发的证书都是100年 
              kubeadm certs check-expiration

              图片

                #kubelet的证书也是100年
                [root@master01 ~]# openssl x509 -in /var/lib/kubelet/pki/kubelet-client-current.pem -noout -enddate
                notAfter=Feb 16 15:47:21 2125 GMT

                运维小路

                一个不会开发的运维!一个要学开发的运维!一个学不会开发的运维!欢迎大家骚扰的运维!

                关注微信公众号《运维小路》获取更多内容。

                [preflight] Some fatal errors occurred: [ERROR ImagePull]: failed to pull image registry.k8s.io/kube-apiserver:v1.32.6: failed to pull image registry.k8s.io/kube-apiserver:v1.32.6: Error response from daemon: Head "https://asia-east1-docker.pkg.dev/v2/k8s-artifacts-prod/images/kube-apiserver/manifests/v1.32.6": dial tcp 74.125.204.82:443: i/o timeout [ERROR ImagePull]: failed to pull image registry.k8s.io/kube-controller-manager:v1.32.6: failed to pull image registry.k8s.io/kube-controller-manager:v1.32.6: Error response from daemon: Head "https://asia-east1-docker.pkg.dev/v2/k8s-artifacts-prod/images/kube-controller-manager/manifests/v1.32.6": dial tcp 74.125.204.82:443: i/o timeout [ERROR ImagePull]: failed to pull image registry.k8s.io/kube-scheduler:v1.32.6: failed to pull image registry.k8s.io/kube-scheduler:v1.32.6: Error response from daemon: Head "https://europe-west2-docker.pkg.dev/v2/k8s-artifacts-prod/images/kube-scheduler/manifests/v1.32.6": dial tcp 74.125.204.82:443: i/o timeout [ERROR ImagePull]: failed to pull image registry.k8s.io/kube-proxy:v1.32.6: failed to pull image registry.k8s.io/kube-proxy:v1.32.6: Error response from daemon: Head "https://us-west2-docker.pkg.dev/v2/k8s-artifacts-prod/images/kube-proxy/manifests/v1.32.6": dial tcp 74.125.204.82:443: i/o timeout [ERROR ImagePull]: failed to pull image registry.k8s.io/coredns/coredns:v1.11.3: failed to pull image registry.k8s.io/coredns/coredns:v1.11.3: Error response from daemon: Head "https://us-west2-docker.pkg.dev/v2/k8s-artifacts-prod/images/coredns/coredns/manifests/v1.11.3": dial tcp 74.125.204.82:443: i/o timeout [ERROR ImagePull]: failed to pull image registry.k8s.io/pause:3.10: failed to pull image registry.k8s.io/pause:3.10: Error response from daemon: Head "https://us-west2-docker.pkg.dev/v2/k8s-artifacts-prod/images/pause/manifests/3.10": dial tcp 74.125.204.82:443: i/o timeout [ERROR ImagePull]: failed to pull image registry.k8s.io/etcd:3.5.16-0: failed to pull image registry.k8s.io/etcd:3.5.16-0: Error response from daemon: Head "https://europe-west2-docker.pkg.dev/v2/k8s-artifacts-prod/images/etcd/manifests/3.5.16-0": dial tcp 74.125.204.82:443: i/o timeout [preflight] If you know what you are doing, you can make a check non-fatal with `--ignore-preflight-errors=...` error execution phase preflight
                07-14
                <think>我们正在解决用户在使用kubeadm init初始化Kubernetes集群时遇到的镜像拉取失败问题,特别是与kube-apiserver, kube-controller-manager, kube-scheduler, kube-proxy, coredns, pause, 和etcd相关的镜像,错误信息为i/o timeout。这通常是由于网络问题导致无法从默认的镜像仓库(k8s.gcr.io)拉取镜像。 根据引用[1]中列出的镜像列表,这些镜像的默认仓库是k8s.gcr.io。由于网络原因,国内用户可能无法直接访问。因此,解决方案通常包括使用国内镜像仓库或者预先拉取镜像。 引用[3]中提供了一个示例命令,其中使用了`--image-repository registry.aliyuncs.com/google_containers`来指定阿里云的镜像仓库。这是一个常见的解决方法。 另外,引用[4]提到了`kubeadm reset`命令,它用于重置节点,可以在重新初始化之前使用。 因此,我们可以建议用户采取以下步骤: 1. 重置当前初始化状态(如果之前已经尝试过初始化并失败): ```bash kubeadm reset ``` 2. 使用国内镜像仓库重新初始化,例如阿里云镜像仓库: ```bash kubeadm init \ --apiserver-advertise-address=192.168.10.249 \ --image-repository registry.aliyuncs.com/google_containers \ --kubernetes-version v1.22.15 \ # 注意:这里需要和用户要安装的版本一致,引用[1]中是v1.22.15 --service-cidr=10.1.0.0/16 \ --pod-network-cidr=10.244.0.0/16 ``` 注意:用户需要将`--kubernetes-version`设置为与引用[1]中镜像版本一致的v1.22.15(或者用户实际需要的版本)。 如果用户仍然遇到某些镜像拉取问题,可以尝试预先拉取镜像。但是,使用阿里云镜像仓库通常可以解决。 另外,引用[2]显示了一个成功的Pod状态,其中使用了Calico网络插件。因此,在初始化完成后,用户还需要安装网络插件(如Calico),引用[2]中显示Calico的Pod正常运行。 因此,在初始化成功后,用户需要安装网络插件,例如: ```bash kubectl apply -f https://docs.projectcalico.org/manifests/calico.yaml ``` 总结步骤: 1. 重置(如果需要) 2. 使用国内镜像仓库初始化 3. 安装网络插件 注意:如果用户已经尝试过初始化,重置是必要的,否则会报错。 如果用户需要其他版本的Kubernetes,只需更改`--kubernetes-version`参数即可。 另外,coredns的镜像在引用[1]中是`k8s.gcr.io/coredns/coredns:v1.8.4`,在使用阿里云镜像仓库时,kubeadm会自动将其映射为`registry.aliyuncs.com/google_containers/coredns:v1.8.4`。但是,阿里云镜像仓库中coredns的镜像路径可能不同,用户可能需要单独处理coredns镜像。不过,根据经验,kubeadm在指定镜像仓库后,能够正确拉取coredns镜像。 如果用户在执行初始化命令后仍然有部分镜像拉取失败,可以手动拉取镜像并重新打标签。例如,对于coredns镜像: ```bash docker pull registry.aliyuncs.com/google_containers/coredns:1.8.4 docker tag registry.aliyuncs.com/google_containers/coredns:1.8.4 k8s.gcr.io/coredns/coredns:v1.8.4 ``` 但通常不需要,因为kubeadm在初始化时会自动处理这些镜像的拉取和标签。 最后,根据引用[2],安装Calico网络插件后,Pod状态变为Ready。 因此,我们给用户的建议是: - 使用阿里云镜像仓库初始化 - 初始化后安装网络插件 如果用户使用其他网络插件,则需相应更改。 相关问题: 1. 如何解决Kubernetes初始化时的镜像拉取问题? 2. 除了阿里云,还有哪些国内镜像仓库可以使用? 3. 如何手动拉取Kubernetes所需的镜像并打标签? 4. 安装Kubernetes集群后,如何安装网络插件? 5. 如何重置kubeadm的初始化状态?</think>### 解决 Kubernetes kubeadm init 镜像拉取超时问题 当执行 `kubeadm init` 时出现 `ImagePullBackOff` 或 `i/o timeout` 错误(涉及 kube-apiserver、etcd、coredns 等镜像),通常是由于无法访问默认镜像仓库 `k8s.gcr.io` 导致。以下是逐步解决方案: #### 1. **重置环境(可选)** 若之前初始化失败,先重置节点: ```bash kubeadm reset # 清理残留配置 [^4] systemctl restart docker kubelet ``` #### 2. **配置国内镜像仓库** 修改 `kubeadm init` 命令,使用阿里云镜像源: ```bash kubeadm init \ --apiserver-advertise-address=192.168.10.249 \ --image-repository registry.aliyuncs.com/google_containers \ # 关键修改 [^3] --kubernetes-version v1.22.15 \ # 需与所需版本一致 --service-cidr=10.1.0.0/16 \ --pod-network-cidr=10.244.0.0/16 ``` #### 3. **手动拉取镜像(备用方案)** 若仍超时,手动拉取并重命名镜像: ```bash # 示例:拉取 kube-apiserver 镜像 docker pull registry.aliyuncs.com/google_containers/kube-apiserver:v1.22.15 docker tag registry.aliyuncs.com/google_containers/kube-apiserver:v1.22.15 k8s.gcr.io/kube-apiserver:v1.22.15 # 其他镜像同理(参考引用[1]的版本列表) kubeadm config images pull # 验证是否拉取成功 ``` #### 4. **安装网络插件** 初始化成功后必须安装网络插件(如 Calico): ```bash kubectl apply -f https://docs.projectcalico.org/manifests/calico.yaml kubectl get pods -n kube-system # 检查状态是否变为 Running [^2] ``` #### 5. **验证集群状态** ```bash kubectl get nodes # 应显示 Ready 状态 ``` > **关键说明**: > 1. 镜像版本必须一致(如 `v1.22.15` 需匹配所有组件)[^1] > 2. 国内用户必须替换 `k8s.gcr.io` 为国内源 > 3. 网络插件未安装会导致节点始终处于 `NotReady`
                评论
                添加红包

                请填写红包祝福语或标题

                红包个数最小为10个

                红包金额最低5元

                当前余额3.43前往充值 >
                需支付:10.00
                成就一亿技术人!
                领取后你会自动成为博主和红包主的粉丝 规则
                hope_wisdom
                发出的红包
                实付
                使用余额支付
                点击重新获取
                扫码支付
                钱包余额 0

                抵扣说明:

                1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
                2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

                余额充值