超详细!阿里内部都在用的K8S实战手册,新手看这一篇就够了

Kubernetes实战解析:从基础到高级
本文深入探讨Kubernetes(K8s)的核心原理,包括控制器、集群网络、伸缩机制、认证与调度等方面。通过阿里云内部实战手册,详细解析K8s的理论与实践,助你掌握K8s的基础理论并解决实际问题,如集群服务、镜像拉取、安全组配置等。同时,分享了Istio服务网格和证书过期问题处理等案例。

一直关注云计算领域的人,必定知道Kubernetes的崛起。

如今,世界范围内的公有云巨头(谷歌、亚马逊、微软、华为云、阿里云等等)都在其传统的公共云服务之上提供托管的Kubernetes服务。而且云服务龙头AWS也终于落地,进入企业商用K8s软件市场,这让它成了可以通吃主流公私有云的唯一基础架构平台。

信息来源:猎聘网
可以看出,不少年薪30w及以上的运维岗位,都要求会K8s技术了。K8s 凭借在扩展性、管理、大数据分析、网络场景、兼容性、负载均衡、灰度升级、失败冗余、容灾恢复、 DevOps 等方面的优势,受到不少企业的青睐。

今天给大家分享一份阿里内部流传的《Kubernetes实战手册》 ,该文档将K8S分为理论和实践两个部分进行讲解,双管齐下,事半功倍,让你能够迅速搞懂核心原理,吃透基础理论,一次学会并开始使用K8s!

【资料领取见文末!!】
【资料领取见文末!!】

理论模块

理解集群控制器

当我们尝试去理解 K8S 集群工作原理的时候,控制器肯定是一个难点。这是因为控制器有很多,具体实现大相径庭;且控制器的实现用到了一些较为晦涩的机制,不易理解。但是,我们又不能绕过控制器,因为它是集群的“大脑”。

这个章节,我们通过分析一个简易冰箱的设计过程,来深入理解集群控制器的产生,功能以及实现方法。

  • 控制器原理
  • 统一入口
  • 控制器
  • 控制器管理器
  • SharedInformer
  • ListWatcher
  • 服务控制器
  • 路由控制器
    在这里插入图片描述

集群网络详解

阿里云 K8S 集群网络目前有两种方案,一种是 flannel 方案,另外一种是基于calico 和弹性网卡 eni 的 terway 方案。Terway 和 flannel 类似,不同的地方在于,terway 支持 Pod 弹性网卡,以及 NetworkPolicy 功能。

这个章节,我们以 flannel 为例,深入分析阿里云 K8S 集群网络的实现方法。我会从两个角度去分析,一个是网络的搭建过程,另外一个是基于网络的通信。我们的讨论基于当前的 1.12.6 版本。

  • 集群网络搭建
  • 通信
    在这里插入图片描述

集群伸缩原理

阿里云 K8S 集群的一个重要特性,是集群的节点可以动态地增加或减少。有了这个特性,集群才能在计算资源不足的情况下扩容新的节点,同时也可以在资源利用率降低的时候,释放节点以节省费用。

这一章节,我们讨论阿里云 K8S 集群扩容与缩容的实现原理。理解实现原理,在遇到问题的时候,我们就可以高效地排查并定位原因。我们的讨论基于当前的1.12.6 版本。

  • 节点增加原理
  • 手动添加已有节点
  • 自动添加已有节点
  • 集群扩容
  • 自动伸缩
  • 节点减少原理

在这里插入图片描述

认证与调度

不知道大家有没有意识到一个现实,就是大部分时候,我们已经不像以前一样,通过命令行,或者可视窗口来使用一个系统了。现在我们上微博、或者网购,操作的其实不是眼前这台设备,而是一个又一个集群。

超详细!阿里内部都在用的K8S实战手册,新手看这一篇就够了

通常,这样的集群拥有成百上千个节点,每个节点都是一台物理机或虚拟机。集群一般远离用户,坐落在数据中心。为了让这些节点互相协作,对外提供一致且高效的服务,集群需要操作系统。Kubernetes 就是这样的操作系统。

比较 Kubernetes 和单机操作系统,Kubernetes 相当于内核,它负责集群软硬件资源管理,并对外提供统一的入口,用户可以通过这个入口来使用集群,和集群沟通。

超详细!阿里内部都在用的K8S实战手册,新手看这一篇就够了

而运行在集群之上的程序,与普通程序有很大的不同。这样的程序,是“关在笼子里”的程序。它们从被制作,到被部署,再到被使用,都不寻常。我们只有深挖根源,才能理解其本质。

在这节中,我们以一个简单的容器化web程序为例,着重分析了客户端怎么样通过Kubernetes集群API Server认证,以及容器应用怎么样被分派到合适节点这两件事情。

  • “关在笼子里”的程序
  • 双向数字证书验证
  • KubeConfig文件
  • Pod配置
    在这里插入图片描述

集群服务的三个要点和一种实现

理解 K8S 集群服务的概念,是比较不容易的一件事情。尤其是当我们基于似是而非的理解,去排查服务相关问题的时候,会非常不顺利。

这体现在,对于新手来说,ping 不通服务的 IP 地址这样基础的问题,都很难理解;而就算对经验很丰富的工程师来说,看懂服务相关的 iptables 配置,也是相当的挑战。

这一章节,将深入解释一下 K8S 集群服务的原理与实现,便于大家理解。

  • K8S集群服务的本质是什么
  • 自带通信员
  • 把服务照进现实
  • 过滤器框架
  • 节点网络
  • 升级过滤器框架
  • 用自定义链实现服务的反向代理
    在这里插入图片描述

镜像拉取

相比 K8s 集群的其他功能,私有镜像的自动拉取,看起来可能是比较简单的。而镜像拉取失败,大多数情况下都和权限有关。所以,在处理相关问题的时候,我们往往会轻松的说:这问题很简单,肯定是权限问题。但实际的情况是,我们经常为一个问题,花了多个人的时间却找不到原因。这主要还是我们对镜像拉取,特别是私有镜像自动拉取的原理理解不深。

  • 理解OAuth2.0协议
  • Docker扮演的角色
  • K8s实现的私有镜像自动拉取
  • 阿里云实现的Acr credential helper
    在这里插入图片描述

实践

读懂这一篇,集群节点不下线

排查完全陌生的问题,完全不熟悉的系统组件,是售后工程师的一大工作乐趣,当然也是挑战。今天借这个章节,跟大家分析一例这样的问题。排查过程中,需要理解一些自己完全陌生的组件,比如 systemd 和 dbus。但是排查问题的思路和方法基本上还是可以复用了,希望对大家有所帮助。

  • 需要知道的Kubernetes知识
  • 什么是PLEG
  • 容器runtime Docker
  • Daemon调用栈分析
  • Containerd调用栈分析
  • 什么是Dbus
  • RunC请求Dbus
  • Systemd
  • Live Debugging
  • 问题修复
    在这里插入图片描述

节点下线姊妹篇

之前分享过一例集群节点 NotReady 的问题。在那个问题中,我们的排查路劲,从 K8S 集群到容器运行时,再到 sdbus 和 systemd,不可谓不复杂。那个问题目前已经在 systemd 中做了修复,所以基本上能看到那个问题的几率是越来越低了。

但是,集群节点就绪问题还是有的,然而原因却有所不同。

这一章节,跟大家分享另外一例集群节点 NotReady 的问题。这个问题和之前那个问题相比,排查路劲完全不同。作为姊妹篇分享给大家。

  • 问题现象
  • 止步不前的 PLEG
  • 无响应的 Terwayd

超详细!阿里内部都在用的K8S实战手册,新手看这一篇就够了

我们为什么会删除不了集群的命名空间?

阿里云售后技术团队的同学,每天都在处理各式各样千奇百怪的线上问题。常见的有,网络连接失败,服务器宕机,性能不达标,请求响应慢等。但如果要评选,什么问题看起来微不足道事实上却足以让人绞尽脑汁,我相信答案肯定是“删不掉”的问题。比如文件删不掉,进程结束不掉,驱动卸载不了等。

这样的问题就像冰山,隐藏在它们背后的复杂逻辑,往往超过我们的预想。

  • 从集群入口开始
  • Controller 在做什么?
  • API、Group、Version
  • Controller 为什么不能删除命名空间里的资源
  • 节点与 Pod 之间的通信
  • Route Controller 为什么不工作?
  • 集群节点访问云资源
    - 超详细!阿里内部都在用的K8S实战手册,新手看这一篇就够了

阿里云ACK产品安全组配置管理

阿里云容器产品 Kubernetes 版本,即 ACK,基于阿里云 IaaS 层云资源创建。资源包括云服务器 ECS,专有网络 VPC,弹性伸缩 ESS 等。以这些资源为基础,ACK 产品实现了 Kubernetes 集群的节点,网络,自动伸缩等组件和功能。

一般而言,用户对 ACK 产品有很大的管理权限,这包括集群扩容,创建服务等。与此同时,用户可以绕过 ACK 产品,对集群底层云资源进行修改。如释放 ECS,删除 SLB。如果不能理清背后的影响,这样的修改会损坏集群功能。

这一章节会以 ACK 产品安全组的配置管理为核心,深入讨论安全组在集群中扮演的角色,安全组在网络链路中所处的位置,以及非法修改安全组会产生的各类问题。文章内容适用于专有集群和托管集群。

  • 安全组在 ACK 产品中扮演的角色
  • 安全组与 ACK 集群网络
  • 怎么样管理 ACK 集群的安全组规则
  • 限制集群访问外网
  • IDC 与集群互访
  • 使用新的安全组管理节点
  • 典型问题与解决方案
  • 使用多个安全组管理集群节点
  • 限制集群访问公网或者运营级 NAT 保留地址
  • 容器组跨节点通信异常
    超详细!阿里内部都在用的K8S实战手册,新手看这一篇就够了

二分之一活的微服务

Istio is the future !基本上,我相信对云原生技术趋势有些微判断的同学,都会有这个觉悟。其背后的逻辑其实是比较简单的:当容器集群,特别是 K8S 成为事实上的标准之后,应用必然会不断的复杂化,服务治理肯定会成为强需求。

Istio 的现状是,聊的人很多,用的人其实很少。所以导致我们能看到的文章,讲道理的很多,讲实际踩坑经验的极少。

阿里云售后团队作为一线踩坑团队,分享问题排查经验,我们责无旁贷。这一章节,我就跟大家聊一个简单 Istio 问题的排查过程,权当抛砖。

  • 代理与代理的生命周期管理
  • 就绪检查的实现
  • 控制面和数据面
    超详细!阿里内部都在用的K8S实战手册,新手看这一篇就够了

半夜两点Ca证书过期问题处理惨况总结

11 月 22 号半夜 2 点,被值班同学的电话打醒。了解下来,大概情况是,客户某一台 K8s 集群节点重启之后,他再也无法创建 Istio 虚拟服务和 Pod 了。

一来对 Istio 还不是那么熟悉,二来时间可能有点晚,脑子还在懵圈中,本来一个应该比较轻松解决掉的问题,花了几十分钟看代码,处理的惨不忍睹。最终还是在某位大神帮助下,解决了问题。

鉴于此问题,以及相关报错,在网上找不到对应的文章,所以这里分享下这个问题,避免后来的同学,在同样的地方踩坑。另外谨以此篇致敬工作中遇到过的大神!

  • 不断重启的 Citadel
  • 一般意义上的证书验证
  • Citadel 证书体系
    超详细!阿里内部都在用的K8S实战手册,新手看这一篇就够了

以上就是这份文档的概况,一次搞懂6个核心原理吃透基础理论,学会6个典型问题的华丽操作,不管是架构师还是开发者,又或是运维,都能够从中学到不少。

【资料领取点这里!】

### 回答1: K8sKubernetes)是一种开源的容器编排系统,可用于部署、管理自动扩展容器化的应用程序。在搭建 K8s 集群之前,我们需要先准备好以下环境: - 一组至少 3 台具有 Ubuntu 16.04 操作系统的服务器(1 个 Master 节点至少 2 个 Worker 节点)。 - 所有服务器的 root 用户的 SSH 密钥登录已启用。 以下是搭建 K8s 集群的详细步骤: 第一步:安装 Docker 在所有节点上安装 Docker,可以通过以下命令安装: sudo apt-get update sudo apt-get install -y docker.io 启动 Docker: sudo systemctl start docker sudo systemctl enable docker 第二步:安装 Kubernetes 在所有节点上安装 kubeadm、kubelet kubectl,可以通过以下命令安装: sudo apt-get update && sudo apt-get install -y apt-transport-https curl curl -s https://packages.cloud.google.com/apt/doc/apt-key.gpg | sudo apt-key add - cat <<EOF | sudo tee /etc/apt/sources.list.d/kubernetes.list deb https://apt.kubernetes.io/ kubernetes-xenial main EOF sudo apt-get update sudo apt-get install -y kubelet kubeadm kubectl sudo apt-mark hold kubelet kubeadm kubectl 第三步:初始化 Master 节点 在 Master 节点上执行以下命令: sudo kubeadm init --pod-network-cidr=10.244.0.0/16 该命令将使用默认配置初始化 K8s Master。 在命令的末尾,您将看到以下输出: Your Kubernetes master has initialized successfully! To start using your cluster, you need to run the following as a regular user: mkdir -p $HOME/.kube sudo cp -i /etc/kubernetes/admin.conf $HOME/.kube/config sudo chown $(id -u):$(id -g) $HOME/.kube/config You should now deploy a pod network to the cluster. Run "kubectl apply -f [podnetwork].yaml" with one of the options listed at: https://kubernetes.io/docs/concepts/cluster-administration/addons/ 您需要注意以下内容: - 节点加入命令(例如 kubeadm join) - 用于访问 K8s 集群的 kubeconfig 配置文件。 第四步:安装网络插件 在 K8s 网络中构建通信所需的插件是必需的。 可以使用 Flannel,该插件是最常见推荐的插件之一,可以通过以下命令进行安装: kubectl apply -f https://raw.githubusercontent.com/coreos/flannel/master/Documentation/kube-flannel.yml 第五步:加入 Worker 节点 将 Worker 节点加入 K8s 集群中,可以通过以下命令完成: kubeadm join <Master 节点的 IP 地址>:<Master 节点端口号> --token <Token> --discovery-token-ca-cert-hash <SHA256 值> 至此,K8s 集群搭建完毕,您现在可以使用 kubectl 命令与 K8s 集群进行交互,例如: kubectl get nodes 该命令将显示您的所有节点。 ### 回答2: Kubernetes(简称K8s)是一个由谷歌出品的开源容器管理平台,它实现了自动化容器的部署、扩展、滚动升级、故障检测修复等功能。在新一代微服务应用架构中,K8s已经成为必不可少的基础设施组件。本文将介绍如何在K8s版本1.8.3上搭建集群。 1. 硬件准备 在搭建K8s集群之前,需要确定好硬件配置,确保集群能长期稳定运行。一般来说,每个节点至少需要2个CPU、4GB内存、50GB的磁盘空间以及1个网络接口。 2. 软件准备 在搭建K8s集群之前,需要安装好以下软件:Docker、Kubeadm、Kubelet、Kubectl等。可以通过以下命令安装: ``` $ sudo apt-get update $ sudo apt-get install -y docker.io kubelet kubeadm kubectl kubernetes-cni ``` 安装好软件之后,需要对DockerKubernetes做一些配置,具体操作可以参考Kubernetes官方文档。 3. 初始化Master节点 通过Kubeadm初始化Master节点,可以使用以下命令: ``` $ sudo kubeadm init --pod-network-cidr=10.244.0.0/16 ``` 其中--pod-network-cidr参数指定了Pod网络的CIDR地址。 初始化成功之后,会输出一些信息,包括Kubernetes的ApiServer、Token等信息。需要将这些信息保存下来备用。 4. 部署网络插件 Kubernetes的网络模型是基于容器网络接口(CNI)的,需要选择一个支持CNI的网络插件进行部署。目前比较流行的网络插件有Calico、Flannel、Weave等。 以Calico为例,可以通过以下命令部署网络插件: ``` $ kubectl apply -f https://docs.projectcalico.org/manifests/calico.yaml ``` 5. 加入Worker节点 将Worker节点加入集群很简单,只需要在Worker节点上执行以下命令: ``` $ sudo kubeadm join <Master节点IP>:<Master节点端口> --token <Token值> --discovery-token-ca-cert-hash <证书Hash值> ``` 其中,--token--discovery-token-ca-cert-hash参数可以在Master节点上执行以下命令来获取: ``` $ kubeadm token create --print-join-command ``` 至此,K8s集群的搭建工作就完成了。在实际环境中,还需要进行更多配置调整,如制定调度策略、部署应用程序等,详细操作可以参考Kubernetes官方文档。 ### 回答3: Kubernetes(简称K8s)是一款用于容器编排管理的开源平台。在生产环境中,K8s可以帮助我们管理大量的容器,并实现高可用性、弹性伸缩等功能。下面将介绍K8s集群搭建的详细步骤。 首先需要准备好一台主机作为Master,其他的主机作为Nodes。将所有的主机都装上Kubernetes所需要的软件,如:Docker、slinux、kubeadm、kubelet等。 一、Master节点 1. 安装dockerkubelet 在Master节点上安装dockerkubelet来管理所有的容器: 安装Dockerkubelet: sudo apt-get update -y sudo apt-get install docker.io -y sudo apt-get install kubeadm kubelet kubernetes-cni 为了能查看Kubernetes的状态,还需要安装kubectl: sudo apt-get install kubectl 2. 配置Master 在配置Master之前,需要选择一个Pod网络插件。我们可以选择 Calico、Weave Net等插件,这里选择calico。 安装calico插件: sudo kubectl apply -f https://docs.projectcalico.org/v3.9/manifests/calico.yaml 接下来配置Master: sudo kubeadm init --pod-network-cidr=10.244.0.0/16 操作完成后在控制台会输出相应的配置参数,可以先暂存一下,接下来需要用此参数去连接Node节点。 3. 安装网络 在Master节点上安装网络,用来为所有的节点提供网络服务: sudo kubectl apply -f https://docs.projectcalico.org/v3.9/manifests/calico.yaml 不过可能会遇到网络拉取问题,可以额外配置一下,在/opt/cni/bin下面放置calico文件夹,在calico中应该有多个文件文件夹,这样就能解决网络连接问题。 4. 连接Node 将Master节点输出的参数使用kubeadm join命令连接到每个Node,连接成功后Node节点的状态应处于Ready状态: kubeadm join <master-ip>:<master-port> --token <token> --discovery-token-ca-cert-hash <hash> 二、Node节点 1. 安装dockerkubelet 在Node节点上安装dockerkubelet来管理所有的容器: sudo apt-get update -y sudo apt-get install docker.io -y sudo apt-get install kubeadm kubelet kubernetes-cni 2. 连接到Master 将Node节点使用kubeadm join命令连接到Master,连接成功后Node节点的状态应处于Ready状态: kubeadm join <master-ip>:<master-port> --token <token> --discovery-token-ca-cert-hash <hash> 三、验证 1. 查看节点状态 使用 kubectl get nodes 命令查看节点状态,如下所示: NAME STATUS ROLES AGE VERSION k8s-master Ready master 18s v1.8.3 k8s-node-1 Ready <none> 12s v1.8.3 k8s-node-2 Ready <none> 5s v1.8.3 2. 部署测试应用 使用kubectl create deployment命令来部署一个测试应用: kubectl create deployment nginx --image=nginx 使用 kubectl get pods 命令查看应用的状态,如下所示: NAME READY STATUS RESTARTS AGE nginx-5c7c5b974-n9bjd 1/1 Running 0 10s 使用kubectl expose deployment命令来暴露服务: kubectl expose deployment nginx --port=80 --type=NodePort 使用kubectl get service命令查看服务状态,如下所示: NAME TYPE CLUSTER-IP EXTERNAL-IP PORT(S) AGE kubernetes ClusterIP 10.96.0.1 <none> 443/TCP 13m nginx NodePort 10.98.80.0 <none> 80:30001/TCP 44s 可以访问节点的IP地址以及端口号,即可访问Nginx测试应用。 总结 Kubernetes是一个非常好用的容器编排平台,使用Kubernetes可以简化容器的部署管理,提高应用的可靠性可维护性。本文主要介绍了Kubernetes集群搭建的详细步骤,希望对大家有所帮助。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值