为什么90%的运维工程师学不会K8s？只因忽略了这3个关键基础概念

原创于 2025-10-16 18:46:18 发布 · 782 阅读

29 ·

CC 4.0 BY-SA版权

部署运行你感兴趣的模型镜像

第一章：为什么传统运维思维难以适应K8s时代

在容器化和云原生技术迅速普及的今天，Kubernetes（K8s）已成为现代应用部署与管理的事实标准。然而，许多企业仍沿用基于物理机或虚拟机的传统运维模式，这种思维方式在面对K8s的动态编排、自愈机制和声明式API时显得力不从心。

对服务器的“宠物式”管理不再适用

传统运维常将每台服务器视为“宠物”，命名、打补丁、手动修复故障。而在K8s中，Pod是短暂且可替换的“牲畜”，一旦异常即被销毁重建。例如：

apiVersion: apps/v1
kind: Deployment
metadata:
  name: nginx-deployment
spec:
  replicas: 3
  selector:
    matchLabels:
      app: nginx
  template:
    metadata:
      labels:
        app: nginx
    spec:
      containers:
      - name: nginx
        image: nginx:1.21
        ports:
        - containerPort: 80

上述Deployment声明期望维持3个Nginx Pod，系统自动处理调度与恢复，无需人工干预具体节点状态。

静态配置与动态环境的冲突

传统运维依赖脚本固化环境配置，而K8s强调声明式配置与不可变基础设施。变更应通过更新YAML并应用，而非登录容器修改文件。

传统方式：ssh到机器 → 修改配置 → 重启服务
K8s方式：修改ConfigMap → 触发滚动更新

监控与故障排查范式转变

在传统架构中，CPU、内存使用率是核心指标；而在K8s中，更关注Pod生命周期、事件流和服务健康探针。

维度	传统运维	K8s运维
管理单位	服务器	Pod/Service
变更方式	命令式操作	声明式配置
故障恢复	人工介入	自动重启/调度

graph TD A[服务异常] --> B{Pod健康检查失败} B --> C[自动重启容器] C --> D[持续失败?] D --> E[重新调度到其他节点]

第二章：Pod——Kubernetes调度的最小单元

2.1 理解Pod的本质与生命周期

Pod是Kubernetes中最小的调度和管理单元，它封装了一个或多个紧密关联的容器，共享网络和存储资源。每个Pod都有唯一的IP地址，容器间可通过localhost通信。

Pod的典型结构

Pause容器：作为Pod的网络命名空间持有者，负责初始化网络栈；
业务容器：运行实际应用服务；
共享卷：Pod内所有容器可访问的持久化存储。

Pod生命周期阶段

阶段	说明
Pending	已创建但尚未调度到节点
Running	已在节点运行并启动容器
Succeeded	所有容器正常退出（如批处理任务）
Failed	至少一个容器以失败结束
Unknown	状态无法获取

示例：定义一个简单Pod

apiVersion: v1
kind: Pod
metadata:
  name: nginx-pod
spec:
  containers:
  - name: nginx
    image: nginx:1.25
    ports:
    - containerPort: 80

该YAML定义了一个名为nginx-pod的Pod，使用nginx:1.25镜像，暴露80端口。Kubernetes将确保该Pod按声明状态运行。

2.2 多容器协作模式：边车与适配器模式实战

在微服务架构中，多容器协作成为提升系统解耦与可维护性的关键手段。边车模式通过将辅助功能（如日志收集、监控）剥离到独立容器中，实现主应用的专注性。

边车模式示例

apiVersion: v1
kind: Pod
metadata:
  name: web-app-with-sidecar
spec:
  containers:
  - name: web-app
    image: nginx
  - name: log-agent
    image: fluent-bit
    volumeMounts:
    - name: logs
      mountPath: /var/log

上述配置中，web-app 容器处理业务请求，log-agent 作为边车收集日志。两者共享 logs 卷，实现数据互通而无需修改主应用逻辑。

适配器模式的作用

适配器容器负责标准化输出，例如将不同格式的监控指标转换为 Prometheus 可读格式，集中暴露给监控系统，提升观测性一致性。

2.3 Pod资源请求与限制：避免“资源风暴”

在Kubernetes中，合理设置Pod的资源请求（requests）和限制（limits）是保障集群稳定运行的关键。若未配置资源约束，容器可能无节制地占用节点资源，引发“资源风暴”，导致节点性能下降甚至崩溃。

资源配置的作用

资源请求确保Pod调度时分配到满足其最低需求的节点；资源限制则防止容器过度使用CPU和内存。

YAML配置示例

resources:
  requests:
    memory: "64Mi"
    cpu: "250m"
  limits:
    memory: "128Mi"
    cpu: "500m"

上述配置表示该容器启动时至少需要64Mi内存和0.25核CPU，最多不得超过128Mi内存和0.5核CPU。当内存超限时，容器将被OOM Killer终止。

requests用于调度决策
limits用于运行时控制
CPU单位m表示千分之一核
内存单位支持Mi、Gi等

2.4 探针机制详解：就绪与存活检查的正确用法

Kubernetes中的探针机制是保障应用高可用的核心组件，其中就绪探针（readinessProbe）和存活探针（livenessProbe）承担不同的职责。就绪探针用于判断容器是否准备好接收流量，而存活探针则决定容器是否需要重启。

探针类型对比

探针类型	作用	失败后果
就绪探针	判断服务是否可接收请求	从Service后端剔除
存活探针	判断容器是否处于运行状态	重启容器

典型配置示例

livenessProbe:
  httpGet:
    path: /healthz
    port: 8080
  initialDelaySeconds: 30
  periodSeconds: 10
readinessProbe:
  httpGet:
    path: /ready
    port: 8080
  initialDelaySeconds: 10
  periodSeconds: 5

上述配置中，存活探针在容器启动30秒后开始检测，每10秒执行一次；就绪探针10秒后开始，每5秒检测一次。路径应指向能反映应用真实状态的端点，避免误判。

2.5 实战：从Docker容器迁移到Pod的最佳实践

在Kubernetes生态中，将原有Docker容器部署模式迁移至Pod是实现编排管理的关键一步。Pod作为最小调度单元，支持多容器协同，提供了更丰富的资源管理和生命周期控制能力。

迁移前的评估清单

确认容器间依赖关系，判断是否需共存于同一Pod
检查存储卷类型，确保PersistentVolume兼容性
验证网络配置，如主机端口映射与Service对接方案

典型迁移配置示例

apiVersion: v1
kind: Pod
metadata:
  name: app-migrated-pod
spec:
  containers:
  - name: main-app
    image: nginx:1.21
    ports:
    - containerPort: 80
  - name: log-sidecar
    image: fluent-bit:latest
    volumeMounts:
    - name: shared-logs
      mountPath: /var/log
  volumes:
  - name: shared-logs
    emptyDir: {}

该配置将原独立运行的Nginx容器与日志收集组件整合为Pod内的协作容器，通过emptyDir共享日志目录，实现职责分离与资源协同。

第三章：控制器模型——声明式管理的核心

3.1 ReplicaSet与Deployment：保障应用副本一致性

在 Kubernetes 中，ReplicaSet 用于确保指定数量的 Pod 副本始终运行，实现应用的高可用性。它通过标签选择器监控 Pod 状态，并自动增补或删除实例以维持期望状态。

核心机制对比

ReplicaSet 提供副本管理，但不支持滚动更新
Deployment 是更高层的抽象，管理 ReplicaSet 并支持声明式更新、回滚

典型 Deployment 配置示例

apiVersion: apps/v1
kind: Deployment
metadata:
  name: nginx-deployment
spec:
  replicas: 3
  selector:
    matchLabels:
      app: nginx
  template:
    metadata:
      labels:
        app: nginx
    spec:
      containers:
      - name: nginx
        image: nginx:1.21

上述配置声明了 3 个 Nginx Pod 副本。Deployment 控制器会创建对应的 ReplicaSet，并确保其持续满足副本数要求。当 Pod 发生故障或被删除时，ReplicaSet 会自动重建新实例，保障服务连续性。

3.2 StatefulSet：有状态服务的有序管控

StatefulSet 是 Kubernetes 中用于管理有状态应用的核心控制器，确保每个 Pod 拥有唯一的、稳定的网络标识和持久化存储。

核心特性

稳定且唯一的网络标识：Pod 名称遵循固定模式（如 myapp-0, myapp-1）
有序部署与扩展：按序创建、更新和删除 Pod
持久化存储绑定：即使 Pod 重建，仍挂载原有 PersistentVolume

典型配置示例

apiVersion: apps/v1
kind: StatefulSet
metadata:
  name: web
spec:
  serviceName: "nginx"
  replicas: 3
  selector:
    matchLabels:
      app: nginx
  template:
    metadata:
      labels:
        app: nginx
    spec:
      containers:
      - name: nginx
        image: nginx:1.25
        ports:
        - containerPort: 80
        volumeMounts:
        - name: data
          mountPath: /usr/share/nginx/html
  volumeClaimTemplates:
  - metadata:
      name: data
    spec:
      accessModes: ["ReadWriteOnce"]
      resources:
        requests:
          storage: 10Gi

该配置定义了一个名为 web 的 StatefulSet，使用 volumeClaimTemplates 为每个 Pod 动态创建独立的 PVC，确保数据持久性。serviceName 必须关联一个 Headless Service，以支持稳定的 DNS 记录。

3.3 DaemonSet与Job：特殊工作负载的调度艺术

守护节点的DaemonSet

DaemonSet确保每个节点运行一个Pod副本，常用于日志收集、监控代理等场景。Kubernetes自动调度并在新节点加入时动态扩展。

apiVersion: apps/v1
kind: DaemonSet
metadata:
  name: fluentd-logging
spec:
  selector:
    matchLabels:
      name: fluentd
  template:
    metadata:
      labels:
        name: fluentd
    spec:
      containers:
      - name: fluentd
        image: fluent/fluentd:v1.14

上述配置为每个节点部署Fluentd日志收集器。spec.selector定义匹配标签，template.spec指定容器镜像。

一次性任务Job

Job用于执行有限生命周期的任务，支持并行控制和重试机制。通过completions和parallelism可精确控制执行模式。

第四章：Service与网络通信机制

4.1 Service类型解析：ClusterIP、NodePort与LoadBalancer

Kubernetes中的Service资源用于定义一组Pod的访问策略，其核心类型包括ClusterIP、NodePort和LoadBalancer。

三种Service类型的对比

ClusterIP：默认类型，仅在集群内部通过虚拟IP暴露服务；
NodePort：在ClusterIP基础上，将服务映射到每个节点的指定端口，支持外部访问；
LoadBalancer：云平台集成，自动创建外部负载均衡器并导向NodePort或ClusterIP。

典型配置示例

apiVersion: v1
kind: Service
metadata:
  name: example-service
spec:
  type: NodePort
  selector:
    app: my-app
  ports:
    - protocol: TCP
      port: 80
      targetPort: 9376
      nodePort: 30007

上述配置将服务绑定至所有节点的30007端口，外部流量可通过任意节点IP:30007访问后端Pod。其中port为Service内部端口，targetPort指向容器实际监听端口，nodePort定义节点暴露端口（范围30000-32767）。

4.2 DNS与服务发现：集群内如何实现自动寻址

在Kubernetes集群中，DNS是实现服务自动寻址的核心机制。kube-dns或CoreDNS为每个Service分配一个稳定的DNS名称，Pod可通过名称直接访问后端服务。

服务注册与解析流程

当Service创建时，DNS服务器会自动生成A记录，形如my-svc.my-namespace.svc.cluster.local，指向ClusterIP。Pod发起请求时，本地kubelet配置的DNS策略将查询转发至集群DNS服务器。

核心配置示例

apiVersion: v1
kind: Service
metadata:
  name: nginx-service
  namespace: default
spec:
  selector:
    app: nginx
  ports:
    - protocol: TCP
      port: 80

该Service创建后，集群内任意Pod均可通过nginx-service.default.svc.cluster.local进行访问。参数说明：`selector`定义后端Pod标签，`port`暴露服务端口，DNS自动绑定此服务名称。

DNS策略由Pod的dnsPolicy字段控制，默认为ClusterFirst
Headless Service通过SRV记录支持多实例直接寻址

4.3 Ingress控制器配置：统一南北向流量入口

在Kubernetes集群中，Ingress控制器是管理外部访问服务的统一入口，负责将外部HTTP/HTTPS流量路由到内部服务。它通过监听Ingress资源定义的规则，实现基于域名和路径的流量转发。

常见Ingress控制器类型

Nginx Ingress Controller：轻量高效，社区支持广泛
Traefik：支持自动发现，集成Let's Encrypt便捷
Istio Gateway：适用于服务网格场景，功能丰富

基础配置示例

apiVersion: networking.k8s.io/v1
kind: Ingress
metadata:
  name: example-ingress
  annotations:
    nginx.ingress.kubernetes.io/rewrite-target: /
spec:
  rules:
  - host: app.example.com
    http:
      paths:
      - path: /service-a
        pathType: Prefix
        backend:
          service:
            name: service-a
            port:
              number: 80

该配置将访问 app.example.com/service-a 的请求转发至名为 service-a 的后端服务。注解 rewrite-target 用于重写URL路径，确保服务接收到正确请求格式。

4.4 网络策略（NetworkPolicy）：零信任安全模型实践

在 Kubernetes 集群中，网络策略是实现零信任安全模型的核心机制。通过精确控制 Pod 间的通信，NetworkPolicy 能够最小化攻击面，确保“默认拒绝、显式允许”的安全原则。

NetworkPolicy 基本结构

apiVersion: networking.k8s.io/v1
kind: NetworkPolicy
metadata:
  name: deny-traffic-by-default
spec:
  podSelector: {}
  policyTypes:
  - Ingress
  - Egress

该策略对所有 Pod 启用入口和出口流量的默认拒绝规则。`podSelector: {}` 表示匹配命名空间下所有 Pod，未定义 `ingress` 或 `egress` 规则即为拒绝。

精细化流量控制示例

允许前端 Pod 访问后端服务：

spec:
  podSelector:
    matchLabels:
      app: backend
  ingress:
  - from:
    - podSelector:
        matchLabels:
          app: frontend
    ports:
    - protocol: TCP
      port: 80

此规则仅允许带有 `app=frontend` 标签的 Pod 访问 `app=backend` 的 80 端口，实现基于身份的微隔离。

NetworkPolicy 依赖支持策略的 CNI 插件（如 Calico、Cilium）
策略按命名空间隔离，需结合 RBAC 实现多租户安全
建议逐步启用，默认拒绝前先观测流量模式

第五章：结语——构建云原生认知体系才是破局关键

从工具到思维的跃迁

许多团队在引入 Kubernetes 或服务网格时，仅将其视为部署工具的升级，却忽视了背后架构理念的根本转变。某金融企业在微服务迁移中遭遇频繁超时，根源并非 Istio 配置错误，而是未理解“服务间通信应默认安全且可观测”这一原则。通过重构服务身份认证模型并启用 mTLS 全链路加密，稳定性提升 70%。

认知体系的组件化构建

真正的云原生能力需系统性拆解为可落地的认知模块：

声明式 API 的设计哲学：资源状态即代码契约
控制器模式的实现机制：调谐循环与最终一致性
可观测性的三大支柱：日志、指标、追踪的协同分析

认知维度	典型误区	正确实践
弹性设计	依赖手动扩缩容	基于 HPA + 自定义指标自动响应负载
故障恢复	重启容器解决一切	熔断 + 重试预算 + 断路器策略组合


// 示例：Kubernetes 控制器中的调谐逻辑
func (r *Reconciler) Reconcile(ctx context.Context, req ctrl.Request) (ctrl.Result, error) {
    var instance v1alpha1.CustomService
    if err := r.Get(ctx, req.NamespacedName, &instance); err != nil {
        return ctrl.Result{}, client.IgnoreNotFound(err)
    }

    // 声明式目标：确保实际状态向期望状态收敛
    if !isPodRunning(r.Client, instance) {
        return ctrl.Result{Requeue: true}, createPod(r.Client, &instance)
    }
    return ctrl.Result{}, nil
}

您可能感兴趣的与本文相关的镜像