32、Kubernetes资源配额与集群容量管理

Kubernetes资源配额与集群管理

最新推荐文章于 2025-10-03 14:08:31 发布

mqtt6iot

最新推荐文章于 2025-10-03 14:08:31 发布

阅读量63

点赞数

CC 4.0 BY-SA版权

分类专栏： Kubernetes实战进阶文章标签： Kubernetes 资源配额集群容量管理

本文链接：https://blog.youkuaiyun.com/mqtt6iot/article/details/152397351

Kubernetes实战进阶专栏收录该内容

42 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

Kubernetes资源配额与集群容量管理

1. 资源配额类型

在Kubernetes中，资源配额分为多种类型，以帮助用户更好地管理和控制资源使用。
- 计算资源配额 ：计算资源主要指CPU和内存。对于每个资源，用户可以指定限制或请求特定数量。相关字段如下：
- limits.cpu ：所有非终止状态的Pod的CPU限制总和不能超过此值。
- limits.memory ：所有非终止状态的Pod的内存限制总和不能超过此值。
- requests.cpu ：所有非终止状态的Pod的CPU请求总和不能超过此值。
- requests.memory ：所有非终止状态的Pod的内存请求总和不能超过此值。
- 存储资源配额 ：存储资源配额类型更为复杂。每个命名空间可以限制两个实体：存储量和持久卷声明的数量。除了全局设置总存储或持久卷声明总数的配额，还可以按存储类进行设置。相关字段如下：
- requests.storage ：所有持久卷声明的存储请求总和不能超过此值。
- persistentvolumeclaims ：命名空间中可以存在的持久卷声明的总数。
- <storage-class>.storageclass.storage.k8s.io/requests.storage ：与特定存储类关联的所有持久卷声明的存储请求总和不能超过此值。
- <storage-class>.storageclass.storage.k8s.io/persistentvolumeclaims ：与特定存储类关联的所有持久卷声明的总数。
- 临时存储配额 ：Kubernetes 1.8增加了对临时存储配额的alpha支持，相关字段如下：
- requests.ephemeral-storage ：命名空间中所有Pod的本地临时存储请求总和不能超过此值。
- limits.ephemeral-storage ：命名空间中所有Pod的本地临时存储限制总和不能超过此值。
- 对象计数配额 ：Kubernetes的另一类资源配额是API对象。限制API对象数量的目的是保护Kubernetes API服务器，避免管理过多对象。支持限制的对象包括：
- ConfigMaps ：命名空间中可以存在的配置映射的总数。
- PersistentVolumeClaims ：命名空间中可以存在的持久卷声明的总数。
- Pods ：命名空间中可以存在的非终止状态的Pod的总数。
- ReplicationControllers ：命名空间中可以存在的复制控制器的总数。
- ResourceQuotas ：命名空间中可以存在的资源配额的总数。
- Services ：命名空间中可以存在的服务的总数。
- Services.LoadBalancers ：命名空间中可以存在的负载均衡服务的总数。
- Services.NodePorts ：命名空间中可以存在的节点端口服务的总数。
- Secrets ：命名空间中可以存在的秘密的总数。

2. 配额范围

某些资源（如Pod）可能处于不同状态，为这些不同状态设置不同的配额是有用的。现有范围如下：
- Terminating ：匹配 spec.activeDeadlineSeconds >= 0 的Pod。
- NotTerminating ：匹配 spec.activeDeadlineSeconds 为 nil 的Pod。
- BestEffort ：匹配具有尽力而为服务质量的Pod。
- NotBestEffort ：匹配不具有尽力而为服务质量的Pod。

BestEffort 范围仅适用于Pod，而 Terminating 、 NotTerminating 和 NotBestEffort 范围也适用于CPU和内存。支持的对象包括： cpu 、 limits.cpu 、 limits.memory 、 memory 、 pods 、 requests.cpu 、 requests.memory 。

3. 请求和限制的含义

在资源配额的上下文中，请求和限制要求容器明确指定目标属性。这样，Kubernetes可以管理总配额，因为它确切知道每个容器分配的资源范围。

4. 操作步骤

以下是使用资源配额的具体操作步骤：
1. 创建命名空间 ：

kubectl create namespace ns

使用特定命名空间上下文 ：

kubectl config set-context ns --cluster=minikube --user=minikube --namespace=ns
kubectl config use-context ns

创建计算配额对象 ：创建一个名为 compute-quota.yaml 的文件，内容如下：

apiVersion: v1
kind: ResourceQuota
metadata:
  name: compute-quota
spec:
  hard:
    pods: "2"
    requests.cpu: "1"
    requests.memory: 20Mi
    limits.cpu: "2"
    limits.memory: 2Gi

然后执行以下命令创建配额：

kubectl create -f compute-quota.yaml

创建对象计数配额对象 ：创建一个名为 object-counts-quota.yaml 的文件，内容如下：

apiVersion: v1
kind: ResourceQuota
metadata:
  name: object-counts-quota
spec:
  hard:
    configmaps: "10"
    persistentvolumeclaims: "4"
    replicationcontrollers: "20"
    secrets: "10"
    services: "10"
    services.loadbalancers: "2"

然后执行以下命令创建配额：

kubectl create -f object-counts-quota.yaml

查看配额 ：

kubectl get quota
kubectl describe quota compute-quota
kubectl describe quota object-counts-quota

5. 遇到的问题及解决方法

在添加NGINX服务器到命名空间时，可能会遇到Pod创建失败的问题。原因是命名空间中存在计算配额，每个容器必须指定其CPU、内存请求和限制。解决方法有两种：
- 为每个Pod类型创建专用部署对象 ：仔细设置CPU和内存请求和限制，但管理多个部署配置文件可能比较麻烦。
- 在命令行指定限制 ：

kubectl run nginx \
  --image=nginx \
  --replicas=1 \
  --requests=cpu=100m,memory=4Mi \
  --limits=cpu=200m,memory=8Mi \
  --namespace=ns

不过，这种方式在创建部署时使用大量参数，管理集群比较脆弱。更好的方法是使用限制范围来设置默认计算配额。
- 使用限制范围设置默认计算配额 ：创建一个名为 limits.yaml 的文件，内容如下：

apiVersion: v1
kind: LimitRange
metadata:
  name: limits
spec:
  limits:
  - default:
      cpu: 200m
      memory: 6Mi
    defaultRequest:
      cpu: 100m
      memory: 5Mi
    type: Container

然后执行以下命令创建限制范围：

kubectl create -f limits.yaml

删除当前NGINX部署后，再次运行NGINX而不指定CPU和内存请求和限制，Pod可以成功创建：

kubectl delete deployment nginx
kubectl run nginx --image=nginx --replicas=1
kubectl get pods

6. 集群容量管理

选择节点类型 ：最简单的解决方案是选择具有已知CPU、内存和本地存储数量的单一节点类型，但这通常不是最有效和最具成本效益的解决方案。大多数Kubernetes集群和组件处理不同的工作负载，例如CPU密集型、内存密集型等。对于每种节点类型，应考虑适当的标签，确保Kubernetes调度适合该节点类型的Pod。
选择存储解决方案 ：存储是扩展集群的重要因素，有三种可扩展存储解决方案类别：
- 自行搭建 ：在Kubernetes集群中安装某种存储解决方案，优点是灵活性和完全控制，但需要自行管理和扩展。
- 使用云平台存储解决方案 ：开箱即用，但会失去控制，通常费用更高，并且可能被锁定到特定提供商。
- 使用集群外解决方案 ：数据传输的性能和成本可能更高，通常在需要与现有系统集成时使用。大型集群可能使用来自所有类别的多个数据存储。
权衡成本和响应时间 ：过度配置集群可以提高性能，但成本高昂；而过度优化资源利用率可能导致系统无法处理额外负载或节点故障。用户需要找到中间平衡点，考虑工作负载的典型波动，以及拥有额外容量与降低响应时间或处理能力的成本效益比。
有效使用多种节点配置 ：有效的容量规划需要了解系统的使用模式和每个组件可以处理的负载。根据不同的工作负载（固定工作负载、可预测变化的工作负载、不稳定的工作负载），设计多种节点配置，以调度适合特定工作负载的Pod。
利用弹性云资源 ：大多数云提供商允许自动扩展实例，这与Kubernetes的水平Pod自动扩展完美互补。但需要注意云配额问题，配额可能会限制系统的扩展能力，增加配额需要人工审批，可能导致系统在审批期间无法处理负载。

以下是一个简单的mermaid流程图，展示了添加新实例的过程：

graph TD;
    A[CPU负载监控] --> B{负载是否超过阈值};
    B -- 是 --> C[添加新实例];
    B -- 否 --> D[维持现有实例];

通过合理设置资源配额和管理集群容量，用户可以更好地利用Kubernetes的功能，提高系统的性能和可靠性。

Kubernetes资源配额与集群容量管理

7. 云资源自动缩放及注意事项

自动缩放实例 ：各大云提供商都提供了实例自动缩放功能。虽然存在一些差异，但基于CPU利用率进行上下缩放是常见的，有时还支持自定义指标，部分也提供负载均衡功能。这与Kubernetes的功能有一定重叠。如果云提供商的自动缩放功能控制不足，用户可以自行实现，通过监控集群资源使用情况并调用云API来添加或移除实例，相关指标可以从Kubernetes中提取。
注意云配额 ：在使用云提供商服务时，配额是一个常见的问题。不同云提供商（如AWS、GCP、Azure和Alibaba Cloud）都有配额限制。这些配额用于云提供商进行自身的容量规划，同时也防止用户意外启动大量实例而无法支付费用。例如，当设置好的自动缩放系统达到节点数量上限（如100个节点）时，系统将无法继续扩展。此时需要提交支持请求来增加配额，但人工审批可能需要一到两天时间，在此期间系统可能无法处理负载。

8. 不同工作负载下的节点配置设计

9. 云资源自动缩放与Kubernetes的协同工作流程

下面是一个mermaid流程图，展示了云资源自动缩放与Kubernetes水平Pod自动缩放协同工作的流程：

graph LR;
    A[Kubernetes水平Pod自动缩放] --> B{是否需要更多资源};
    B -- 是 --> C[触发云资源自动缩放];
    C --> D[云提供商添加或移除实例];
    D --> E[Kubernetes重新调度Pod];
    B -- 否 --> F[维持现有状态];

10. 总结与最佳实践

通过以上对Kubernetes资源配额和集群容量管理的介绍，我们可以总结出以下最佳实践：
- 资源配额设置 ：
- 明确不同类型资源的配额范围，根据实际需求合理设置计算资源、存储资源、对象计数等配额。
- 利用配额范围对不同状态的资源进行差异化管理，提高资源利用效率。
- 使用限制范围设置默认计算配额，简化容器资源配置。
- 集群容量管理 ：
- 根据不同的工作负载选择合适的节点类型和存储解决方案，避免过度配置或资源不足。
- 权衡成本和响应时间，找到最佳平衡点，确保系统在不同负载下都能稳定运行。
- 设计多种节点配置，以适应不同的工作负载，提高资源利用率。
- 利用云资源的弹性特性，实现自动缩放，但要注意云配额的影响。

通过遵循这些最佳实践，用户可以更好地管理Kubernetes集群，提高系统的性能、可靠性和成本效益。